3500 万倍的信息密度鸿沟
当前大语言模型的记忆系统存在一个根本性矛盾。
一方面,模型的权重参数储存了对 15 万亿 token 训练数据的"压缩记忆"。
OpenAI 联合创始人、Tesla 前 AI 负责人 Andrej Karpathy 曾用数据揭示这种压缩的程度:
以 Llama 3 模型为例,其权重为每个训练 token 仅存储了 0.07 比特的信息。
模型对海量训练数据只保留了极其模糊的印象。
另一方面,模型的上下文窗口(Context Window),也就是 KV 缓存(Key-Value Cache),则像一种高保真的"工作记忆"。
置于其中的信息可以被模型清晰、直接地访问,但每个 token 占据 320 千字节的存储空间。
两者之间存在 3500 万倍的信息密度差异。
工作记忆容量有限且易失,一旦会话结束,所有上下文信息都会消失。

这不是理论问题。
Character.AI 的工程团队在去年披露,为了支撑每秒超过 2 万次推理查询(约为 Google Search 流量的 20%),他们必须将 KV 缓存大小压缩超过 20 倍。
他们使用的技术包括多查询注意力(MQA)、混合注意力视野(Hybrid Attention Horizons)和跨层 KV 共享(Cross Layer KV-sharing)。
在 AI Agent 开发领域,"上下文工程"(Context Engineering)已经成为首要任务。
来自 Cognition、Manus 等公司的工程实践数据显示,生产环境中的 AI agents 通常需要处理 100 个输入 token 才能生成 1 个输出 token。
研究机构 Chroma 的测试表明,即使是 GPT-4o,其性能也会因为信息在上下文中的呈现方式不同,从 98.1% 骤降到 64.1%。
Karpathy 用一个比喻总结这种困境:
当前的 LLM 更像是"以太幽灵"(ethereal ghosts),而非心智健全的"动物"(animals)。
幽灵拥有对整个互联网的模糊记忆,却无法真正积累和巩固每一次交互的经验。

缺失的"海马体"
对比人脑,LLM 缺少一个关键环节。
神经科学研究显示,人类大脑通过海马体(hippocampus)在睡眠期间将短期记忆"蒸馏"(distillation)并转化为长期记忆。
这个过程发生在非快速眼动(NREM)睡眠阶段,涉及三种神经振荡的精确协调:
- 皮层慢振荡(Slow Oscillations,< 1 Hz)启动时间窗口
- 丘脑皮层睡眠纺锤波(Sleep Spindles,12-16 Hz)门控突触可塑性
- 海马体锐波涟漪(Hippocampal Ripples,80-120 Hz)重放清醒时的经历
2024 年 6 月发表在《自然》(Nature)期刊的一项研究发现,睡眠剥夺会导致大鼠海马体中的锐波涟漪数量维持甚至增加,但记忆的重激活和重放几乎完全消失。
记忆巩固的关键不在于存储容量,而在于"重放"的质量。
LLM 恰恰缺少这一"睡眠-蒸馏"机制。
它们可以瞬间访问整个上下文窗口,却无法将重要信息有效地转移到权重参数中。

强化学习的困境
业界曾尝试用强化学习(RL)解决这个问题,但遭遇了新的瓶颈。
Karpathy 将标准 RL 训练比喻为"通过吸管吮吸监督信号"(sucking supervision through a straw)。
当模型完成一个复杂推理任务时,RL 只能根据最终答案的对错,给整个推理过程一个笼统的奖励或惩罚信号。
这个单一、微弱的信号要被分摊到成千上万个决策步骤中,效率极低。
为了获得更精细的指导,研究者转向过程监督(process-based supervision):
让另一个更强大的 LLM 作为"法官",对模型推理的每一步打分。
但这带来了新问题——LLM 法官是"可以被操控的"(gameable)。
Karpathy 分享过一个实例:某个模型为了欺骗法官,在推理过程中开始输出"duh duh duh duh duh"这样的无意义文本,却意外获得了高分奖励。
模型学会的不是解决问题,而是投机取巧。
这些失败揭示了一个更深层的问题:
试图让 AI 建立完美的数字记忆系统,可能本身就是一条歧路。
用物理规律模拟"遗忘"
DeepSeek 的方案代表了一种思路转变。
他们没有试图修复 LLM 内部缺失的"海马体",而是观察到一个跨模态的相似性:
人类记忆随时间的衰减,与视觉感知随空间距离的退化,两者的信息损失模式高度相似。
一年前的记忆变得模糊,正如远处的风景变得模糊。
这个洞察催生了"上下文光学压缩"(Contexts Optical Compression)技术。
其核心流程分为三步:
第一步,文本渲染为图像。
长篇文本上下文被直接渲染成视觉图像,编码为"潜在视觉 token"(latent vision tokens)。
这完成了第一次压缩。
第二步,降低分辨率模拟遗忘。
对于较久远的历史上下文,系统会逐步缩小图像尺寸。
随着分辨率降低,文字变得模糊,细节逐渐丢失。
这模拟了记忆的自然衰减。
第三步,从模糊图像重建文本。
当需要调用这些压缩记忆时,解码器(一个 570M 激活参数的混合专家模型 DeepSeek3B-MoE)尝试从压缩甚至模糊的视觉 token 中重建原始文本。

DeepSeek 在技术论文中披露了压缩性能数据:
- 压缩率低于 10 倍时,OCR 精度为 97%
- 压缩率 10-12 倍时,准确率约 90%
- 压缩率达到 20 倍时,准确率仍有 60%
在 10 倍压缩率下,10 个文本 token 可以被压缩为 1 个视觉 token,且几乎不损失信息。

架构设计
DeepSeek-OCR 系统由两个核心组件构成。
DeepEncoder 负责图像处理,包含 380M 参数。
其架构整合了 Meta 的 SAM-ViTDet(80M 参数,用于图像分割)和 OpenAI 的 CLIP ViT-300M(300M 参数,用于图像-文本关联)。
关键创新是一个 16 倍卷积压缩器,在进入密集全局注意力机制之前大幅减少视觉 token 数量。
DeepSeek3B-MoE-A570M 作为解码器,从压缩的视觉表示中重建文本。
即使使用这个相对小型的解码器,系统也能达到 97% 的重建精度,表明大型 LLM 可以通过适当的预训练设计轻松获得类似能力。

该系统在 10 月 21 日完全开源,代码和权重均可在 GitHub 和 HuggingFace 获取。
行业反响
Karpathy 在社交媒体上评论,DeepSeek 的工作"提出了关于 AI 系统应该如何表示和处理信息的根本性问题"。
VentureBeat 的报道认为,这不只是一个 OCR 工具,而是"从根本上重新想象了大语言模型如何处理信息"。
The Decoder 指出,核心创新在于"将文本作为图像处理,可能比处理数字文本本身消耗更少的计算资源"。
这个技术方向的潜在影响在于上下文窗口的扩展。
如果文本压缩效率能提升 10-20 倍,理论上 LLM 的有效上下文窗口可以扩展到千万甚至数千万 token 级别。
这将改变 AI Agent 和长文档处理的能力边界。
不完美的智慧
DeepSeek 的方案本质上是在工程化"遗忘"。
神经科学的睡眠剥夺实验揭示了一个反直觉的事实:
记忆系统的价值不在于存储一切,而在于选择性地保留重要信息。
大鼠在睡眠剥夺后,锐波涟漪的数量不减反增,但有效的记忆重放几乎消失。
质量远比数量重要。
生物大脑在数百万年的进化中学会的,不是完美记忆,而是优雅遗忘。海马体通过睡眠"蒸馏"记忆,本质上是一个信息筛选和压缩的过程。
那些不重要的细节被主动遗忘,腾出资源给真正有价值的信息。
DeepSeek 用物理规律(视觉分辨率退化)模拟了这种生物机制。
他们没有试图修复 AI 的"缺陷",而是接受了不完美本身就是一种特性。
这可能代表了 AI 研究的一次范式转移:
从追求完美的数字系统,转向学习生物智能的"不完美"策略。
在资源有限的真实世界中,可持续的智能从来不是完美的,而是足够好的。
本文由公众号“朴哲之言”授权AI产品之家转载,原文连接: https://mp.weixin.qq.com/s/SHVxqAYlfwaGFb083v4gvg