DeepSeek-OCR开源!10倍无损压缩,破LLM算力困局?

B站影视 欧美电影 2025-10-22 15:49 2

摘要:10月20号上午,DeepSeek干了件挺炸圈的事,直接开源了个叫DeepSeek-OCR的模型,还首次抛出“上下文光学压缩”这么个新说法。

10月20号上午,DeepSeek干了件挺炸圈的事,直接开源了个叫DeepSeek-OCR的模型,还首次抛出“上下文光学压缩”这么个新说法。

跟现在多数大模型拼了命拉长上下文窗口不一样,它走了条反套路的路:把文字转成图像,用更少的“视觉token”装下差不多的内容,以此化解长文本处理时算力耗得太狠的问题。

这两年看大模型发展,有点像看车企比谁的油箱大,从4Ktoken到128K,再到上百万token,上下文是越来越能装,但算力和显存消耗也跟着翻跟头,小公司根本扛不住。

DeepSeek这次搞的“光学压缩”,相当于给文本“脱水”还不丢营养,这思路确实让人眼前一亮。

它的核心能力已经过验证,把文本压缩10倍的时候,解码精度能到97%,基本跟没压缩一样;就算压到20倍,精度也还能保住六成左右。

而且在OmniDocBench这个测试里,它只用100个视觉token,就超过了要用256个token的GOT-OCR2.0;更狠的是,用不到800个视觉token,还打赢了平均每页要近7000个token的MinerU2.0。

这就像用个小背包,装下了大行李箱的东西,还没遗漏啥重要物件。

性能这么能打,按常理猜团队得挺庞大吧?结果让人意外,这模型的论文作者就3个人,分别是HaoranWei、YaofengSun、YukunLi。

而且HaoranWei还是去年9月阶跃星辰发布的GOT-OCR2.0的第一作者,等于有成功案例在前,这技术的靠谱程度一下就多了层保障。

现在这模型已经挂在HuggingFace上开源,论文也同步放到了GitHub,想研究的人随时能拿到资料,这点比有些藏着掖着的厂商大方多了。

要搞懂这模型为啥这么牛,得先看它的核心架构,分成DeepEncoder和DeepSeek3B-MoE两部分,一个负责“压缩”,一个负责“解码”,分工特别明确。

先说说DeepEncoder,它是个专门处理高分辨率文档的视觉编码器,用了SAM加CLIP的双结构设计。

简单讲,就是既能关注文档局部的细节,又能把握全局,理解得更准,而且它还带个双层的16×卷积压缩模块,能把视觉token的数量砍得很狠。

比如输入一张1024×1024的文档图片,传统视觉模型得生成4096个token,它直接压到256个,内存占用一下就降下来了。

最实用的是它支持多种“分辨率模式”,从轻量的Tiny模式(只有64个token)到高保真的Gundam模式(795个token),能根据任务复杂度自己选。

就像手机拍照,想省流量就选低分辨率,要打印出来就用高清模式。

论文里还放了效果对比,Tiny模式下文字虽然有点模糊,但基本能看清;Gundam模式下,读起来跟原文件没差别。

日常处理个幻灯片、普通论文,100个视觉token就够;要是碰到报纸那种文字密集的,开Gundam模式也能精准还原。

再看解码端的DeepSeek3B-MoE,这是个轻量级的混合专家语言解码器。

它最聪明的地方是“按需激活”,推理的时候只激活6个专家模块,总激活参数量才5.7亿。

这就好比公司干活,只找最擅长的几个人处理特定任务,不用全公司都加班,既保证了干活质量,又能省时间、省成本。

像文档OCR、图文生成这些场景,对速度和效率要求高,它这特性就特别适配,光有好架构还不够,数据得跟得上。

DeepSeek专门搭了个庞大的数据集,包含四类核心数据:3000万页多语言文档的OCR1.0数据、能解析图表和化学公式的OCR2.0数据、用来练基础图像理解的通用视觉数据,还有维持语言流畅度的纯文本数据。

本来想OCR能识别文字就不错了,后来发现它连图表、几何图形都能看懂,甚至能把化学结构式转成SMILES格式,STEM领域的研究者用它,怕是能省不少手动录入的功夫。

它的训练流程也不复杂,分两步走:先单独训练DeepEncoder,用OCR数据和从LAION数据集里挑的1亿条通用图像数据;等DeepEncoder练好了,再用多模态数据和纯文本数据,用流水线并行的方式训练完整模型。

至于超高分辨率的Gundam-master模式,就是在练好的模型基础上,再用600万条数据微调出来的,流程跟其他模式一样,只是多了道“加餐”。

现在业内不是没做过压缩相关的探索,比如LLMLingua-2能压缩80%的提示词,但缺点是容易丢语境;CALDERA算法侧重给模型“瘦身”,可精度又跟不上。

还有些研究盯着VLM视觉编码器和端到端OCR模型,但都没解决一个关键问题:包含1000个单词的文档,最少需要多少个视觉token才能解码?DeepSeek-OCR其实就是冲着这个问题去的,想把“一图胜千言”的原理落到实处。

很显然,DeepSeek的思路跟别人不一样,它没在文本本身较劲,而是换了个赛道,用视觉token做光学压缩。

团队有个观点我特别认同:“一张含文档文本的图像,能用比等效数字文本少得多的token,装下更丰富的信息。

”而且这方法不用额外加算力,因为多模态系统本身就有视觉编码器,等于在现有基础上挖潜力,不是从零造轮子,成本优势一下就出来了。

跟同类开源模型比,它的定位也很清晰,比如百度的PaddleOCR-VL更侧重多语言识别,而DeepSeek-OCR的核心是压缩效率。

在实际生产里,这优势就很明显了,单个A100-40GGPU一天能生成20万页以上的训练数据,要是多凑几台机器,大规模文档理解和多模态模型训练的数据源问题就解决了。

搞AI训练的人都知道,数据是刚需,之前小团队要么等大厂放数据,要么自己标数据,又慢又贵,它这生成速度等于把门槛降了不少,而且它的应用场景比我想的还广。

处理金融研究报告时,能自动提取图表里的结构化信息,不用再手动扒数据;处理书籍和论文时,能生成详细的图文描述,实现自动化转写;连化学文献里的结构式都能识别,还能转成标准格式,对做科研的人来说太实用了。

更意外的是多语言能力,它能处理近百种语言,连阿拉伯语、僧伽罗语这种小语种都能精准识别,做跨境业务或者处理多语种文档,不用再换好几个工具,省了不少麻烦。

当然,它也不是完美的,压缩率超过10倍以后,性能会有点下降,主要是文档版式太复杂,或者长文本在低分辨率下会模糊。

不过团队也说了,版式问题能通过统一渲染解决,模糊问题可能会成为未来“遗忘机制”的研究方向,等于把问题变成了新的研究点,这种态度挺务实的。

现在DeepSeek团队已经说了,接下来会探索数字和光学混合的文本预训练方式,还会用“大海捞针”测试来评估光学压缩在真实长文本里的表现。

从行业角度看,这技术不光是优化了OCR,更给大模型长上下文处理指了条新路子,以后大家可能不只是比谁的上下文窗口大,还会比谁能把信息“装得更紧凑”。

如此看来,DeepSeek-OCR的意义早超出了OCR本身,它证明了优化信息表达方式,比硬堆参数、堆算力更聪明。

3人团队能做出这么有突破性的技术,也给行业提了个醒:有时候换个思路,比跟着别人内卷更管用。

要是后续能解决高压缩率下的精度问题,这光学压缩的路子,说不定真能改写LLM长文本处理的规则。

来源:念寒尘缘

相关推荐