3500 万倍的信息密度鸿沟

当前大语言模型的记忆系统存在一个根本性矛盾。

一方面，模型的权重参数储存了对 15 万亿 token 训练数据的"压缩记忆"。

OpenAI 联合创始人、Tesla 前 AI 负责人 Andrej Karpathy 曾用数据揭示这种压缩的程度：

以 Llama 3 模型为例，其权重为每个训练 token 仅存储了 0.07 比特的信息。

模型对海量训练数据只保留了极其模糊的印象。

另一方面，模型的上下文窗口（Context Window），也就是 KV 缓存（Key-Value Cache），则像一种高保真的"工作记忆"。

置于其中的信息可以被模型清晰、直接地访问，但每个 token 占据 320 千字节的存储空间。

两者之间存在 3500 万倍的信息密度差异。

工作记忆容量有限且易失，一旦会话结束，所有上下文信息都会消失。

这不是理论问题。

Character.AI 的工程团队在去年披露，为了支撑每秒超过 2 万次推理查询（约为 Google Search 流量的 20%），他们必须将 KV 缓存大小压缩超过 20 倍。

他们使用的技术包括多查询注意力（MQA）、混合注意力视野（Hybrid Attention Horizons）和跨层 KV 共享（Cross Layer KV-sharing）。

在 AI Agent 开发领域，"上下文工程"（Context Engineering）已经成为首要任务。

来自 Cognition、Manus 等公司的工程实践数据显示，生产环境中的 AI agents 通常需要处理 100 个输入 token 才能生成 1 个输出 token。

研究机构 Chroma 的测试表明，即使是 GPT-4o，其性能也会因为信息在上下文中的呈现方式不同，从 98.1% 骤降到 64.1%。

Karpathy 用一个比喻总结这种困境：

当前的 LLM 更像是"以太幽灵"（ethereal ghosts），而非心智健全的"动物"（animals）。

幽灵拥有对整个互联网的模糊记忆，却无法真正积累和巩固每一次交互的经验。

缺失的"海马体"

对比人脑，LLM 缺少一个关键环节。

神经科学研究显示，人类大脑通过海马体（hippocampus）在睡眠期间将短期记忆"蒸馏"（distillation）并转化为长期记忆。

这个过程发生在非快速眼动（NREM）睡眠阶段，涉及三种神经振荡的精确协调：

皮层慢振荡（Slow Oscillations，< 1 Hz）启动时间窗口
丘脑皮层睡眠纺锤波（Sleep Spindles，12-16 Hz）门控突触可塑性
海马体锐波涟漪（Hippocampal Ripples，80-120 Hz）重放清醒时的经历

2024 年 6 月发表在《自然》（Nature）期刊的一项研究发现，睡眠剥夺会导致大鼠海马体中的锐波涟漪数量维持甚至增加，但记忆的重激活和重放几乎完全消失。

记忆巩固的关键不在于存储容量，而在于"重放"的质量。

LLM 恰恰缺少这一"睡眠-蒸馏"机制。

它们可以瞬间访问整个上下文窗口，却无法将重要信息有效地转移到权重参数中。

强化学习的困境

业界曾尝试用强化学习（RL）解决这个问题，但遭遇了新的瓶颈。

Karpathy 将标准 RL 训练比喻为"通过吸管吮吸监督信号"（sucking supervision through a straw）。

当模型完成一个复杂推理任务时，RL 只能根据最终答案的对错，给整个推理过程一个笼统的奖励或惩罚信号。

这个单一、微弱的信号要被分摊到成千上万个决策步骤中，效率极低。

为了获得更精细的指导，研究者转向过程监督（process-based supervision）：

让另一个更强大的 LLM 作为"法官"，对模型推理的每一步打分。

但这带来了新问题——LLM 法官是"可以被操控的"（gameable）。

Karpathy 分享过一个实例：某个模型为了欺骗法官，在推理过程中开始输出"duh duh duh duh duh"这样的无意义文本，却意外获得了高分奖励。

模型学会的不是解决问题，而是投机取巧。

这些失败揭示了一个更深层的问题：

试图让 AI 建立完美的数字记忆系统，可能本身就是一条歧路。

用物理规律模拟"遗忘"

DeepSeek 的方案代表了一种思路转变。

他们没有试图修复 LLM 内部缺失的"海马体"，而是观察到一个跨模态的相似性：

人类记忆随时间的衰减，与视觉感知随空间距离的退化，两者的信息损失模式高度相似。

一年前的记忆变得模糊，正如远处的风景变得模糊。

这个洞察催生了"上下文光学压缩"（Contexts Optical Compression）技术。

其核心流程分为三步：

第一步，文本渲染为图像。

长篇文本上下文被直接渲染成视觉图像，编码为"潜在视觉 token"（latent vision tokens）。

这完成了第一次压缩。

第二步，降低分辨率模拟遗忘。

对于较久远的历史上下文，系统会逐步缩小图像尺寸。

随着分辨率降低，文字变得模糊，细节逐渐丢失。

这模拟了记忆的自然衰减。

第三步，从模糊图像重建文本。

当需要调用这些压缩记忆时，解码器（一个 570M 激活参数的混合专家模型 DeepSeek3B-MoE）尝试从压缩甚至模糊的视觉 token 中重建原始文本。

DeepSeek 在技术论文中披露了压缩性能数据：

压缩率低于 10 倍时，OCR 精度为 97%
压缩率 10-12 倍时，准确率约 90%
压缩率达到 20 倍时，准确率仍有 60%

在 10 倍压缩率下，10 个文本 token 可以被压缩为 1 个视觉 token，且几乎不损失信息。

架构设计

DeepSeek-OCR 系统由两个核心组件构成。

DeepEncoder 负责图像处理，包含 380M 参数。

其架构整合了 Meta 的 SAM-ViTDet（80M 参数，用于图像分割）和 OpenAI 的 CLIP ViT-300M（300M 参数，用于图像-文本关联）。

关键创新是一个 16 倍卷积压缩器，在进入密集全局注意力机制之前大幅减少视觉 token 数量。

DeepSeek3B-MoE-A570M 作为解码器，从压缩的视觉表示中重建文本。

即使使用这个相对小型的解码器，系统也能达到 97% 的重建精度，表明大型 LLM 可以通过适当的预训练设计轻松获得类似能力。

该系统在 10 月 21 日完全开源，代码和权重均可在 GitHub 和 HuggingFace 获取。

行业反响

Karpathy 在社交媒体上评论，DeepSeek 的工作"提出了关于 AI 系统应该如何表示和处理信息的根本性问题"。

VentureBeat 的报道认为，这不只是一个 OCR 工具，而是"从根本上重新想象了大语言模型如何处理信息"。

The Decoder 指出，核心创新在于"将文本作为图像处理，可能比处理数字文本本身消耗更少的计算资源"。

这个技术方向的潜在影响在于上下文窗口的扩展。

如果文本压缩效率能提升 10-20 倍，理论上 LLM 的有效上下文窗口可以扩展到千万甚至数千万 token 级别。

这将改变 AI Agent 和长文档处理的能力边界。

不完美的智慧

DeepSeek 的方案本质上是在工程化"遗忘"。

神经科学的睡眠剥夺实验揭示了一个反直觉的事实：

记忆系统的价值不在于存储一切，而在于选择性地保留重要信息。

大鼠在睡眠剥夺后，锐波涟漪的数量不减反增，但有效的记忆重放几乎消失。

质量远比数量重要。

生物大脑在数百万年的进化中学会的，不是完美记忆，而是优雅遗忘。海马体通过睡眠"蒸馏"记忆，本质上是一个信息筛选和压缩的过程。

那些不重要的细节被主动遗忘，腾出资源给真正有价值的信息。

DeepSeek 用物理规律（视觉分辨率退化）模拟了这种生物机制。

他们没有试图修复 AI 的"缺陷"，而是接受了不完美本身就是一种特性。

这可能代表了 AI 研究的一次范式转移：

从追求完美的数字系统，转向学习生物智能的"不完美"策略。

在资源有限的真实世界中，可持续的智能从来不是完美的，而是足够好的。

本文由公众号“朴哲之言”授权AI产品之家转载，原文连接： https://mp.weixin.qq.com/s/SHVxqAYlfwaGFb083v4gvg