摘要:早上,它在 AlphaArena 炒币大赛上拿下实盘第一;晚上,顺手扔出一个全新开源模型:DeepSeek-OCR。
昨天,DeepSeek 连发两招。
早上,它在 AlphaArena 炒币大赛上拿下实盘第一;晚上,顺手扔出一个全新开源模型:DeepSeek-OCR。
先放上地址:
Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-OCR GitHub:https://github.com/deepseek-ai/DeepSeek-OCR这个模型的名字,可能会让你误会它只是个识别图片文字的小工具。但当你打开论文,就会发现,它的真正野心根本不在「识别」,而在「压缩」。准确地说,是在压缩上下文的记忆成本。
DeepSeek-OCR 干的是一件看起来不太合理、但跑出来却非常有效的事情:把几千个文本 token 转成一张图,然后再把这张图压成几十个视觉 token 喂给模型,识别准确率还能稳在 97%。
这套做法听上去有点奇怪,但你得承认,它切中了一个大模型时代没人真正解决的问题:我们太难,太贵,太慢地去处理长上下文了。
为什么长上下文这么难搞?
Transformer 架构的 Attention 机制本质是 O(n²) 的,也就是你输入的 token 越多,计算量就越指数级增长。
现在的大语言模型虽然动辄支持 128k、甚至百万级的上下文窗口,但那是靠堆显存、拉分布式硬算出来的。一个 GPT-4 Turbo 每跑一次长文本,都得烧掉几毛钱成本。
所以大家都在尝试各种“压缩”思路。比如说,有的改位置编码(RoPE)、有的做稀疏注意力(Longformer)、还有的搞检索增强(RAG)。
但所有这些,都没有绕开一个核心限制:文本 token,本身就是一种很低效的信息表示。
它太碎了,也太长了。你要说清楚一个段落,就得拼出几百个 token。每个 token 都要进模型、计算 attention、排好位置。这种事情,人类大脑根本不会干。我们更多时候是“看一个图景,联想起整个事件”。
DeepSeek-OCR,就是把这个“图景”,变成了模型也能理解的一种 token。
DeepSeek 提出的这个概念叫 Contexts Optical Compression(上下文光学压缩)。
核心逻辑其实就两步:
把一段长文本渲染成图像(比如渲染成一页带排版的 PDF 图);用视觉编码器把图像压缩成几十个视觉 token,再丢给语言模型处理。这里有个特别重要的细节:这些视觉 token,不是传统 OCR 中转出来的文本结果,而是作为模型记忆的一部分直接送进上下文窗口里。
换句话说,模型是在“看图回忆”。
你可能会觉得这种方式信息密度太低了,但实际数据反而给出了非常强的正向结果。论文在 Fox benchmark 上做了系统测试,结果如下:
原本你要用 1000 多个 token 才能表示完的文本,DeepSeek-OCR 可以用不到 100 个图像 token 就搞定。而且识别率基本维持在 90% 以上,几乎不怎么损失信息。
这是非常惊人的结果。尤其是对于多轮对话、历史文档、代码文件、长报告这类内容而言,原本撑爆上下文窗口的内容,现在可以 10 倍压缩装进去。
技术结构到底长什么样?
DeepSeek-OCR 是专门为上下文压缩任务定制了一个完整系统。
它的核心是两个模块:一个压缩器,一个解码器。编码器叫 DeepEncoder,解码器是 DeepSeek-3B-MoE。
先来说编码器 DeepEncoder。
DeepEncoder 负责把一张图像(即渲染后的文本内容)压缩成尽量少的视觉 token。
结构上,它分三段:
前段是 SAM 模块,负责捕捉局部细节;中间有个 16 倍的卷积压缩模块,把 token 数量直接缩一截;后段接上 CLIP Large 模块,抓全局语义。整套 DeepEncoder 大概 380M 参数,处理 1024x1024 高分辨率图像时,仅生成 256 个视觉 token,推理时几乎不会撑爆显存。
而且,它支持多种分辨率模式(Tiny / Small / Base / Large / Gundam / Gundam-M),可根据不同任务选择 token 数量从 64 到 1853 不等,兼顾精度和资源控制。
而解码器采用的是 DeepSeek-3B-MoE。
视觉 token 生成之后,要进入语言模型做“记忆恢复”。
DeepSeek 采用了自家的 MoE 架构语言模型,参数总量 3B,但每次只激活 570M,推理非常省钱。
这个模块的作用就是学会“如何从一堆图像 token 中,推理出原文的意思”。训练任务看起来像 OCR,但本质是一个极高密度的图文压缩重建问题。
实战表现也非常强。
在结构化文档理解任务中,DeepSeek-OCR 的表现已经超越了一票 SOTA 模型。
在 OmniDocBench 上的英文文档编辑距离评测中,不同模型的表现如下:
别的模型要用五六千个 token 才能拼出一份结构化文档的识别结果,DeepSeek-OCR 只用不到 2000 个 token 就做到了更准。
HTML 表格SMILES 分子式Markdown 文档结构几何图形的节点和向量表示换句话说,它不只是看懂了文字,还能完整还原结构。这在金融、科研、合同管理、学术工具等场景,几乎就是降维打击。
论文里有个细节,很多人可能会忽略。但它其实藏着一种很聪明的“类人机制”。
在 DeepSeek-OCR 的设计中,针对那些时间跨度较久、离当前任务较远的上下文信息,它们选择了一种近乎本能的做法:逐步降低图像分辨率,让旧的信息“看不清”,但又不至于完全丢失。
这一机制,在论文中的表现非常直观:
上面这张图里,把时间记忆的清晰度、视觉距离的模糊度,和图像分辨率的压缩比例放在了一条轴线上。一一对应。
人的记忆、人的眼睛、模型的“视野”,都在经历一种相似的退化过程。
最清晰的是刚刚发生的事,最近看的东西;越往后,越远的、越小的,慢慢开始变模糊,但没有消失。它们被压缩、折叠、变形,最后以一种“几乎不可见但仍可唤起”的方式保留了下来。
这其实就是一种上下文的梯度遗忘策略。
而图像,成了模型用来“存放模糊记忆”的容器。
从这个角度看,DeepSeek-OCR 所做的,并不只是光学字符识别。它更像是在为大模型构建一套「视觉式的短期记忆系统」,一种既节省 token,又符合人类认知规律的记忆衰减机制。
不是每一个词都值得被原封不动地记住。但每一个重要的意思,应该以最节省的方式留下来。
这,大概就是未来多模态 Agent 真正可持续记忆的雏形。
来源:腊八科技圈