解析DeepSeek-OCR——怎么做到压缩10倍还不丢信息的

摘要：早上，它在 AlphaArena 炒币大赛上拿下实盘第一；晚上，顺手扔出一个全新开源模型：DeepSeek-OCR。

昨天，DeepSeek 连发两招。

早上，它在 AlphaArena 炒币大赛上拿下实盘第一；晚上，顺手扔出一个全新开源模型：DeepSeek-OCR。

先放上地址：

Hugging Face：https://huggingface.co/deepseek-ai/DeepSeek-OCR GitHub：https://github.com/deepseek-ai/DeepSeek-OCR

这个模型的名字，可能会让你误会它只是个识别图片文字的小工具。但当你打开论文，就会发现，它的真正野心根本不在「识别」，而在「压缩」。准确地说，是在压缩上下文的记忆成本。

DeepSeek-OCR 干的是一件看起来不太合理、但跑出来却非常有效的事情：把几千个文本 token 转成一张图，然后再把这张图压成几十个视觉 token 喂给模型，识别准确率还能稳在 97%。

这套做法听上去有点奇怪，但你得承认，它切中了一个大模型时代没人真正解决的问题：我们太难，太贵，太慢地去处理长上下文了。

为什么长上下文这么难搞？

Transformer 架构的 Attention 机制本质是 O(n²) 的，也就是你输入的 token 越多，计算量就越指数级增长。

现在的大语言模型虽然动辄支持 128k、甚至百万级的上下文窗口，但那是靠堆显存、拉分布式硬算出来的。一个 GPT-4 Turbo 每跑一次长文本，都得烧掉几毛钱成本。

所以大家都在尝试各种“压缩”思路。比如说，有的改位置编码（RoPE）、有的做稀疏注意力（Longformer）、还有的搞检索增强（RAG）。

但所有这些，都没有绕开一个核心限制：文本 token，本身就是一种很低效的信息表示。

它太碎了，也太长了。你要说清楚一个段落，就得拼出几百个 token。每个 token 都要进模型、计算 attention、排好位置。这种事情，人类大脑根本不会干。我们更多时候是“看一个图景，联想起整个事件”。

DeepSeek-OCR，就是把这个“图景”，变成了模型也能理解的一种 token。

DeepSeek 提出的这个概念叫 Contexts Optical Compression（上下文光学压缩）。

核心逻辑其实就两步：

把一段长文本渲染成图像（比如渲染成一页带排版的 PDF 图）；用视觉编码器把图像压缩成几十个视觉 token，再丢给语言模型处理。

这里有个特别重要的细节：这些视觉 token，不是传统 OCR 中转出来的文本结果，而是作为模型记忆的一部分直接送进上下文窗口里。

换句话说，模型是在“看图回忆”。

你可能会觉得这种方式信息密度太低了，但实际数据反而给出了非常强的正向结果。论文在 Fox benchmark 上做了系统测试，结果如下：

原本你要用 1000 多个 token 才能表示完的文本，DeepSeek-OCR 可以用不到 100 个图像 token 就搞定。而且识别率基本维持在 90% 以上，几乎不怎么损失信息。

这是非常惊人的结果。尤其是对于多轮对话、历史文档、代码文件、长报告这类内容而言，原本撑爆上下文窗口的内容，现在可以 10 倍压缩装进去。

技术结构到底长什么样？

DeepSeek-OCR 是专门为上下文压缩任务定制了一个完整系统。

它的核心是两个模块：一个压缩器，一个解码器。编码器叫 DeepEncoder，解码器是 DeepSeek-3B-MoE。

先来说编码器 DeepEncoder。

DeepEncoder 负责把一张图像（即渲染后的文本内容）压缩成尽量少的视觉 token。

结构上，它分三段：

前段是 SAM 模块，负责捕捉局部细节；中间有个 16 倍的卷积压缩模块，把 token 数量直接缩一截；后段接上 CLIP Large 模块，抓全局语义。

整套 DeepEncoder 大概 380M 参数，处理 1024x1024 高分辨率图像时，仅生成 256 个视觉 token，推理时几乎不会撑爆显存。

而且，它支持多种分辨率模式（Tiny / Small / Base / Large / Gundam / Gundam-M），可根据不同任务选择 token 数量从 64 到 1853 不等，兼顾精度和资源控制。

而解码器采用的是 DeepSeek-3B-MoE。

视觉 token 生成之后，要进入语言模型做“记忆恢复”。

DeepSeek 采用了自家的 MoE 架构语言模型，参数总量 3B，但每次只激活 570M，推理非常省钱。

这个模块的作用就是学会“如何从一堆图像 token 中，推理出原文的意思”。训练任务看起来像 OCR，但本质是一个极高密度的图文压缩重建问题。

实战表现也非常强。

在结构化文档理解任务中，DeepSeek-OCR 的表现已经超越了一票 SOTA 模型。

在 OmniDocBench 上的英文文档编辑距离评测中，不同模型的表现如下：

别的模型要用五六千个 token 才能拼出一份结构化文档的识别结果，DeepSeek-OCR 只用不到 2000 个 token 就做到了更准。

HTML 表格SMILES 分子式Markdown 文档结构几何图形的节点和向量表示

换句话说，它不只是看懂了文字，还能完整还原结构。这在金融、科研、合同管理、学术工具等场景，几乎就是降维打击。

论文里有个细节，很多人可能会忽略。但它其实藏着一种很聪明的“类人机制”。

在 DeepSeek-OCR 的设计中，针对那些时间跨度较久、离当前任务较远的上下文信息，它们选择了一种近乎本能的做法：逐步降低图像分辨率，让旧的信息“看不清”，但又不至于完全丢失。

这一机制，在论文中的表现非常直观：

上面这张图里，把时间记忆的清晰度、视觉距离的模糊度，和图像分辨率的压缩比例放在了一条轴线上。一一对应。

人的记忆、人的眼睛、模型的“视野”，都在经历一种相似的退化过程。

最清晰的是刚刚发生的事，最近看的东西；越往后，越远的、越小的，慢慢开始变模糊，但没有消失。它们被压缩、折叠、变形，最后以一种“几乎不可见但仍可唤起”的方式保留了下来。

这其实就是一种上下文的梯度遗忘策略。

而图像，成了模型用来“存放模糊记忆”的容器。

从这个角度看，DeepSeek-OCR 所做的，并不只是光学字符识别。它更像是在为大模型构建一套「视觉式的短期记忆系统」，一种既节省 token，又符合人类认知规律的记忆衰减机制。

不是每一个词都值得被原封不动地记住。但每一个重要的意思，应该以最节省的方式留下来。

这，大概就是未来多模态 Agent 真正可持续记忆的雏形。

来源：腊八科技圈

标签：模型编码器解码器 gundam token

本文地址：http://news.43b.com.cn/a/1604573.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐