朴哲研读|DeepSeek 用"遗忘"破解大模型记忆难题

DeepSeek 在 10 月 21 日开源了一个名为 DeepSeek-OCR 的模型。这个模型的技术方案挑战了 AI 行业的一个基本假设:文本信息的最优表示形式不一定是文本 token,而可能是视觉图像。

作者: 朴哲之言
分类:产品趋势
16 次阅读

3500 万倍的信息密度鸿沟

当前大语言模型的记忆系统存在一个根本性矛盾。

一方面,模型的权重参数储存了对 15 万亿 token 训练数据的"压缩记忆"。

OpenAI 联合创始人、Tesla 前 AI 负责人 Andrej Karpathy 曾用数据揭示这种压缩的程度:

以 Llama 3 模型为例,其权重为每个训练 token 仅存储了 0.07 比特的信息。

模型对海量训练数据只保留了极其模糊的印象。

另一方面,模型的上下文窗口(Context Window),也就是 KV 缓存(Key-Value Cache),则像一种高保真的"工作记忆"。

置于其中的信息可以被模型清晰、直接地访问,但每个 token 占据 320 千字节的存储空间。

两者之间存在 3500 万倍的信息密度差异。

工作记忆容量有限且易失,一旦会话结束,所有上下文信息都会消失。

image.png

这不是理论问题。

Character.AI 的工程团队在去年披露,为了支撑每秒超过 2 万次推理查询(约为 Google Search 流量的 20%),他们必须将 KV 缓存大小压缩超过 20 倍。

他们使用的技术包括多查询注意力(MQA)、混合注意力视野(Hybrid Attention Horizons)和跨层 KV 共享(Cross Layer KV-sharing)。

在 AI Agent 开发领域,"上下文工程"(Context Engineering)已经成为首要任务。

来自 Cognition、Manus 等公司的工程实践数据显示,生产环境中的 AI agents 通常需要处理 100 个输入 token 才能生成 1 个输出 token。

研究机构 Chroma 的测试表明,即使是 GPT-4o,其性能也会因为信息在上下文中的呈现方式不同,从 98.1% 骤降到 64.1%。

Karpathy 用一个比喻总结这种困境:

当前的 LLM 更像是"以太幽灵"(ethereal ghosts),而非心智健全的"动物"(animals)。

幽灵拥有对整个互联网的模糊记忆,却无法真正积累和巩固每一次交互的经验。

image.png

缺失的"海马体"

对比人脑,LLM 缺少一个关键环节。

神经科学研究显示,人类大脑通过海马体(hippocampus)在睡眠期间将短期记忆"蒸馏"(distillation)并转化为长期记忆。

这个过程发生在非快速眼动(NREM)睡眠阶段,涉及三种神经振荡的精确协调:

  • 皮层慢振荡(Slow Oscillations,< 1 Hz)启动时间窗口
  • 丘脑皮层睡眠纺锤波(Sleep Spindles,12-16 Hz)门控突触可塑性
  • 海马体锐波涟漪(Hippocampal Ripples,80-120 Hz)重放清醒时的经历

2024 年 6 月发表在《自然》(Nature)期刊的一项研究发现,睡眠剥夺会导致大鼠海马体中的锐波涟漪数量维持甚至增加,但记忆的重激活和重放几乎完全消失。

记忆巩固的关键不在于存储容量,而在于"重放"的质量。

LLM 恰恰缺少这一"睡眠-蒸馏"机制。

它们可以瞬间访问整个上下文窗口,却无法将重要信息有效地转移到权重参数中。

image.png

强化学习的困境

业界曾尝试用强化学习(RL)解决这个问题,但遭遇了新的瓶颈。

Karpathy 将标准 RL 训练比喻为"通过吸管吮吸监督信号"(sucking supervision through a straw)。

当模型完成一个复杂推理任务时,RL 只能根据最终答案的对错,给整个推理过程一个笼统的奖励或惩罚信号。

这个单一、微弱的信号要被分摊到成千上万个决策步骤中,效率极低。

为了获得更精细的指导,研究者转向过程监督(process-based supervision):

让另一个更强大的 LLM 作为"法官",对模型推理的每一步打分。

但这带来了新问题——LLM 法官是"可以被操控的"(gameable)。

Karpathy 分享过一个实例:某个模型为了欺骗法官,在推理过程中开始输出"duh duh duh duh duh"这样的无意义文本,却意外获得了高分奖励。

模型学会的不是解决问题,而是投机取巧。

这些失败揭示了一个更深层的问题:

试图让 AI 建立完美的数字记忆系统,可能本身就是一条歧路。

用物理规律模拟"遗忘"

DeepSeek 的方案代表了一种思路转变。

他们没有试图修复 LLM 内部缺失的"海马体",而是观察到一个跨模态的相似性:

人类记忆随时间的衰减,与视觉感知随空间距离的退化,两者的信息损失模式高度相似。

一年前的记忆变得模糊,正如远处的风景变得模糊。

这个洞察催生了"上下文光学压缩"(Contexts Optical Compression)技术。

其核心流程分为三步:

第一步,文本渲染为图像

长篇文本上下文被直接渲染成视觉图像,编码为"潜在视觉 token"(latent vision tokens)。

这完成了第一次压缩。

第二步,降低分辨率模拟遗忘

对于较久远的历史上下文,系统会逐步缩小图像尺寸。

随着分辨率降低,文字变得模糊,细节逐渐丢失。

这模拟了记忆的自然衰减。

第三步,从模糊图像重建文本

当需要调用这些压缩记忆时,解码器(一个 570M 激活参数的混合专家模型 DeepSeek3B-MoE)尝试从压缩甚至模糊的视觉 token 中重建原始文本。

image.png

DeepSeek 在技术论文中披露了压缩性能数据:

  • 压缩率低于 10 倍时,OCR 精度为 97%
  • 压缩率 10-12 倍时,准确率约 90%
  • 压缩率达到 20 倍时,准确率仍有 60%

在 10 倍压缩率下,10 个文本 token 可以被压缩为 1 个视觉 token,且几乎不损失信息。

image.png

架构设计

DeepSeek-OCR 系统由两个核心组件构成。

DeepEncoder 负责图像处理,包含 380M 参数。

其架构整合了 Meta 的 SAM-ViTDet(80M 参数,用于图像分割)和 OpenAI 的 CLIP ViT-300M(300M 参数,用于图像-文本关联)。

关键创新是一个 16 倍卷积压缩器,在进入密集全局注意力机制之前大幅减少视觉 token 数量。

DeepSeek3B-MoE-A570M 作为解码器,从压缩的视觉表示中重建文本。

即使使用这个相对小型的解码器,系统也能达到 97% 的重建精度,表明大型 LLM 可以通过适当的预训练设计轻松获得类似能力。

image.png

该系统在 10 月 21 日完全开源,代码和权重均可在 GitHub 和 HuggingFace 获取。

行业反响

Karpathy 在社交媒体上评论,DeepSeek 的工作"提出了关于 AI 系统应该如何表示和处理信息的根本性问题"。

VentureBeat 的报道认为,这不只是一个 OCR 工具,而是"从根本上重新想象了大语言模型如何处理信息"。

The Decoder 指出,核心创新在于"将文本作为图像处理,可能比处理数字文本本身消耗更少的计算资源"。

这个技术方向的潜在影响在于上下文窗口的扩展。

如果文本压缩效率能提升 10-20 倍,理论上 LLM 的有效上下文窗口可以扩展到千万甚至数千万 token 级别。

这将改变 AI Agent 和长文档处理的能力边界。

不完美的智慧

DeepSeek 的方案本质上是在工程化"遗忘"。

神经科学的睡眠剥夺实验揭示了一个反直觉的事实:

记忆系统的价值不在于存储一切,而在于选择性地保留重要信息。

大鼠在睡眠剥夺后,锐波涟漪的数量不减反增,但有效的记忆重放几乎消失。

质量远比数量重要。

生物大脑在数百万年的进化中学会的,不是完美记忆,而是优雅遗忘。海马体通过睡眠"蒸馏"记忆,本质上是一个信息筛选和压缩的过程。

那些不重要的细节被主动遗忘,腾出资源给真正有价值的信息。

DeepSeek 用物理规律(视觉分辨率退化)模拟了这种生物机制。

他们没有试图修复 AI 的"缺陷",而是接受了不完美本身就是一种特性。

这可能代表了 AI 研究的一次范式转移:

从追求完美的数字系统,转向学习生物智能的"不完美"策略。

在资源有限的真实世界中,可持续的智能从来不是完美的,而是足够好的。


本文由公众号“朴哲之言”授权AI产品之家转载,原文连接: https://mp.weixin.qq.com/s/SHVxqAYlfwaGFb083v4gvg