回顾去年早些时候的文章语言模型即压缩,我们知道一个大模型范式下的一个底层逻辑就是:
语言模型的本质是无损压缩。如果带着这个背景,来看下这两天DeepSeek最新开源发布的工作 DeepSeek-OCR,就会发现,这个工作核心解决的问题就是提升压缩率。而解题思路是:用视觉模态 /visual modality 来压缩文字信息。

==
这篇paper的简介部分是怎么说的:
前的大语言模型在处理长文本时非常耗算力,因为输入越长,计算量会呈平方级增长。DeepSeek 的新研究提出了一个特别有意思的思路:用“视觉”的方式来压缩文字信息。比如一页文档的图像,其实能在一张图里包含大量文本。如果模型能直接理解这种图像形式,就能用更少的 token 表达同样的内容,从而大幅提升效率。
基于这个想法,DeepSeek 团队开发了一个叫 DeepSeek-OCR的模型,它不仅仅是一个识别文字的 OCR 系统,而是一个“高效的视觉-文本压缩模型”。他们证明:模型在压缩 10 倍的情况下仍能保持 96% 的识别准确率,压缩 20 倍时也能达到 60% 左右的准确率。这说明模型其实可以学会“看压缩图像来理解文字”,让LLM更高效地处理大规模信息。
简单来说,这篇论文展示了一种新的方向:未来的语言模型,不一定要靠“堆算力”和“扩窗口”来处理更多信息,而是可以用“视觉压缩”的方式,更聪明地存储和理解内容。这可能会成为突破 LLM 上下文限制、提升推理效率的重要新路径。
===
那么DeepSeek-OCR 所以本质,不是因为它在做更好的 OCR,而是因为它重新定义了模型记忆与信息表示的方式。
并且还揭示、至少是初步揭示了一点:视觉token比文字token更高效。亦或者可以这么表达:视觉可以成为“更高密度的语言”。
等于是发现了一种新的信息表示方式。换句话说,DeepSeek让模型“用看图的方式记文字”,而不是“把图转成文字再记”。
===
最后,看到有一个点评是这么说的,很有意思:
我们回忆书中内容时,不是背出所有句子,而是记得“它在左页中间一段,有个加粗的小标题”。这说明我们的大脑在做一种视觉空间式的记忆。
DeepSeek的工作,本质上是在让模型也拥有这种“视觉记忆结构”:它不再线性地读字,而是以“版面 + 结构 + 图像位置”来理解文本。
这是一种更自然、更人脑式的信息压缩机制。

本文由公众号“为AI发电”授权转载| https://mp.weixin.qq.com/s/OIiApSHq23bN38tcVySjpw|(编辑:潇飞)