摘要:这些数据传递了两个重要信息。第一,10倍压缩是一个"黄金分界线",在此范围内模型可以实现接近无损的文字解码,未来有望通过文本到图像的方法实现近乎10倍的无损上下文压缩。第二,即便压缩比提升到20倍,模型仍能保持约60%的准确率,这为研究历史长上下文压缩和大语言
当下的大型语言模型处理长文本时遇到了一个棘手的难题——计算量会随着文本长度呈指数级飙升。来自DeepSeek-AI的研究团队提出了一个巧妙的解决思路:既然图片能够承载大量信息,为何不将文字转换成图像来压缩呢?这个想法催生了DeepSeek-OCR模型。
这些数据传递了两个重要信息。第一,10倍压缩是一个"黄金分界线",在此范围内模型可以实现接近无损的文字解码,未来有望通过文本到图像的方法实现近乎10倍的无损上下文压缩。第二,即便压缩比提升到20倍,模型仍能保持约60%的准确率,这为研究历史长上下文压缩和大语言模型的记忆遗忘机制提供了宝贵的参考数据。性能下降的原因可能有两个:一是长文档的版面更加复杂,二是在512×512或640×640分辨率下长文本变得模糊。第一个问题可以通过将文本渲染到单一版面页面解决,而第二个问题则可以看作是遗忘机制的一种特征。实际OCR性能测试使用OmniDocBench基准来检验DeepSeek-OCR的工程价值。在这个包含多种文档类型的综合测试中,DeepSeek-OCR展现出卓越的效率。仅用100个视觉token(640×640分辨率),其综合编辑距离为0.221,超越了使用256个token的GOT-OCR2.0(0.287);使用400个token(实际有效285个,1280×1280分辨率)时,编辑距离降至0.138,与顶尖模型持平;使用不到800个token的Gundam模式时,编辑距离为0.127,超越了需要近7000个token的MinerU2.0(0.133)。这些数字意味着DeepSeek-OCR在保持高准确率的同时,大幅降低了计算和存储开销。进一步分析不同文档类型的表现,团队发现有趣的规律。幻灯片类文档仅需64个token就能达到0.116的编辑距离,这可能是因为幻灯片文字量通常较少。书籍和报告类文档用100个token即可获得良好表现(0.085和0.079),结合压缩比研究的发现,这些文档的文本token多数在1000以内,视觉-文本压缩比未超过10倍。报纸类文档则需要Gundam甚至Gundam-master模式才能达到可接受的编辑距离,因为报纸的文字量通常在4000至5000 token,远超其他模式的10倍压缩能力。这些实验结果进一步验证了上下文光学压缩的边界,为视觉语言模型的token优化研究和大语言模型的上下文压缩、遗忘机制研究提供了有效参考。深度解析能力的展示:一专多能的全面手DeepSeek-OCR不仅擅长基础OCR,还具备"深度解析"能力——通过二次模型调用进一步解析文档内部的复杂元素。这项能力在处理金融研究报告、学术论文和化学文献时尤为实用。在金融报告场景中,深度解析模式可以提取图表的结构化信息。当模型识别到文档中包含图表时,会自动调用图表解析功能,将复杂的柱状图、折线图或饼图转换成HTML表格格式。这种表格化数据比原始图片更易于后续分析和处理。例如,某份欧洲房地产市场报告中的柱状图显示了2024至2027年德国、法国、意大利、西班牙和欧元区的房地产价格变化趋势,深度解析模式不仅能识别出这些国家名称,还能准确提取每个国家每年的具体数值,并以清晰的表格形式呈现。对于书籍和文章中的自然图像,深度解析模式可以输出详细的图像描述。当遇到一张教室场景的照片时,模型会详细描述场景布局(室内教室环境)、人物(一群孩子和一位成人)、动作(孩子们坐在地板上面向站立的女性)、服装(女性穿棕色毛衣和蓝色牛仔裤,孩子们穿着各色衣服)、背景细节(绿色墙面上的教育海报和公告板、灰色地毯、木质梳妆台、紫色豆袋椅)以及文字信息(墙上可见"BIBLIOTECA"字样,暗示可能是图书馆的一部分)。这种密集描述功能对于构建多模态训练数据或辅助视障人士理解图像内容都具有重要价值。化学文献的处理体现了DeepSeek-OCR在STEM领域的潜力。深度解析模式可以识别文档中的化学结构式,并将其转换成SMILES格式——一种用ASCII字符串表示化学结构的标准方法。例如,某篇化学专利文档展示了一个复杂的含氟有机化合物结构,模型不仅能准确识别分子中的苯环、杂环、取代基等结构单元,还能将其转换成SMILES字符串,方便后续的化学信息学处理和数据库检索。这项能力对于大规模化学文献挖掘和药物设计研究意义重大。平面几何图形的复制能力则展示了模型对结构化信息的理解。当遇到包含多个三角形、多边形组成的几何习题图时,深度解析模式可以识别出每条线段的端点坐标、线段类型(如边、角平分线、中线等),并以字典格式输出。每条线段使用Slow Perception方式编码,确保几何关系的准确表达。虽然由于几何图形中线段之间的依赖关系极其复杂,这项任务仍具挑战性且有很长的路要走,但初步结果已经显示了可能性。除了深度解析,DeepSeek-OCR还支持近100种语言的多语言识别能力。无论是阿拉伯语、僧伽罗语这样的小语种,还是复杂的混合语言文档,模型都能从容应对。与中英文文档一样,多语言数据也支持通过不同提示词控制输出带版面或不带版面的格式。这种多语言能力对于处理网络爬取的海量PDF文档至关重要,因为互联网上的内容远不止中英文两种语言。模型还保留了一定的通用图像理解能力,包括图像描述、目标检测、定位等功能。通过适当的提示词激活,模型可以完成诸如"在图中定位老师""识别图中所有物体并输出边界框""用中文描述这张照片"等任务。这些能力虽然不是DeepSeek-OCR的主要目标,但为未来的研究扩展预留了接口。值得注意的是,由于没有包含监督微调(SFT)阶段,模型并非聊天机器人,某些能力需要补全式提示词才能激活。记忆遗忘的模拟:从清晰到模糊的时间之旅遗忘机制是人类记忆最基本的特征之一,而上下文光学压缩方法天然地模拟了这一机制。研究团队提出了一个富有启发性的类比:人类记忆随时间衰退的规律与视觉感知随距离退化的规律惊人地相似——两者都呈现出逐步的信息丢失模式。设想这样一个场景:在多轮对话系统中,最近几轮的对话历史需要保持高保真度,而较早的对话则可以适当压缩。传统方法可能简单地丢弃超过一定轮次的历史,但这会导致信息断层。上下文光学压缩提供了一种更优雅的解决方案——将历史对话文本渲染成图像进行初步压缩,然后随着时间推移逐步缩小这些图像的分辨率,实现多级压缩。具体而言,刚发生的对话可以保持为纯文本或高分辨率图像(如1280×1280),1小时前的对话降级为1024×1024图像,1天前的降级为640×640,1周前的降级为512×512,1个月前的进一步模糊,1年前的则变得几乎不可辨认。这个过程就像记忆随时间模糊的自然规律——最近发生的事情记忆犹新,而久远的往事则只剩下模糊的印象。从视觉距离的角度看,这个类比同样成立。站在10厘米处看一段文字,每个字符都清晰可见;距离拉远到50厘米,文字仍然清楚但细节开始丢失;1米外文字开始变小;3米外需要费力辨认;10米外只能看到文字的大致轮廓;20米外则几乎无法阅读。这种距离导致的视觉退化与时间导致的记忆退化遵循相似的模式。从分辨率的维度来看,token数量的递减对应着记忆清晰度的下降。最新的内容使用Gundam模式处理,保持数百个高质量token;稍早的内容降级为Large模式(400 token);再早些的使用Base模式(256 token);更久远的使用Small模式(100 token);最古老的则退化为Tiny模式(64 token),文字变得模糊难辨。这种递减模式既节约了计算资源,又保留了重要的历史脉络。结合这三个维度,上下文光学压缩方法实现了一种类似生物遗忘曲线的记忆衰退机制——近期信息保持高保真度,而远期记忆通过增加压缩比例自然淡化。这种方法理论上可以支持无限长的上下文架构,平衡了信息保留与计算约束之间的关系。虽然这仍是早期阶段的工作,需要进一步研究,但它指向了一条极具潜力的路径:让人工智能系统像人类一样,自然地遗忘不重要的细节,同时保留关键的历史脉络。未来展望与现实意义:从概念验证到广泛应用DeepSeek-OCR作为上下文光学压缩可行性的初步探索,已经展现出令人鼓舞的潜力。实验证明,模型能够有效地从少量视觉token中解码出超过10倍数量的文字token,这一发现为视觉语言模型和大语言模型的未来发展开辟了新方向。从实用角度看,DeepSeek-OCR已经是一个高度实用的工具,能够进行大规模预训练数据生产,成为大语言模型不可或缺的助手。在生产环境中,单台A100-40G显卡每天可处理超过20万页文档,20个节点(160块GPU)的集群每天可处理3300万页,这种规模和效率足以支撑大型语言模型的数据需求。更重要的是,由于压缩率高,DeepSeek-OCR生成的训练数据在存储和传输上都更加经济,显著降低了数据工程的成本。然而,研究团队也清醒地认识到,仅凭OCR任务尚不足以全面验证真正的上下文光学压缩能力。未来需要进行数字-光学文本交错预训练、针对长上下文的"大海捞针"测试等更系统的评估。从另一个角度看,光学上下文压缩仍有巨大的研究和改进空间,代表着一个充满前景的新方向。上下文光学压缩的应用场景远不止OCR。在多轮对话系统中,可以对超过k轮的历史对话实施光学压缩,实现10倍的效率提升。在文档检索和问答系统中,可以将整个文档库以图像形式压缩存储,按需解压相关片段。在代理系统中,历史行动记录可以被压缩成"记忆快照",既保留关键信息又节约计算资源。这些应用都建立在一个核心洞察之上:并非所有信息都需要以原始形式保存,适度的信息损失换来的是系统整体效率的质的飞跃。至顶AI实验室洞见当前大语言模型面临的长上下文挑战日益严峻,128k、1M甚至更长的上下文窗口需求层出不穷,但二次复杂度的计算代价让这些目标难以企及。上下文光学压缩提供了一个务实的折中方案——保持最近和最重要的内容为高分辨率(低压缩比),而将历史和次要内容逐步降级为低分辨率(高压缩比)。这种分层处理策略既符合人类认知规律,又贴合工程实际需求,有望成为未来长上下文系统的标准范式。DeepSeek-OCR揭示了一个简单却深刻的道理:图像不仅是视觉信息的载体,更是一种高效的文本压缩介质。当我们换一个视角看待视觉语言模型——不再将其仅仅视为回答视觉问题的工具,而是看作增强大语言模型文本处理效率的手段——许多新的可能性便随之显现。这个研究范式的转变,或许正是通往下一代人工智能系统的钥匙。论文地址:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdfEND本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。Q&AQ1:DeepSeek-OCR能达到多高的文本压缩比例?A:DeepSeek-OCR在10倍压缩比例内可以达到97%的文字识别准确率,这意味着1000个文字token可以用100个视觉token来表示且几乎无损。即便将压缩比提升到20倍,准确率仍能保持在60%左右。这些数据表明,在合理的压缩范围内,使用图像来承载文本信息比直接处理文字要高效得多。Q2:DeepSeek-OCR相比其他OCR模型有什么优势?A:最显著的优势是使用更少的视觉token就能达到相同甚至更好的识别效果。在OmniDocBench测试中,DeepSeek-OCR用100个视觉token就超越了需要256个token的GOT-OCR2.0,用不到800个token就超越了需要近7000个token的MinerU2.0。这意味着更快的处理速度、更低的存储需求和更高的部署效率。另外,DeepSeek-OCR还具备深度解析能力,能够处理图表、化学公式、几何图形等复杂内容,功能更加全面。Q3:DeepSeek-OCR的光学压缩方法能否应用到其他场景?A:完全可以。虽然目前主要在OCR任务上验证,但光学压缩的思路具有广泛的应用潜力。在多轮对话系统中,可以将较早轮次的对话历史渲染成图像并逐步降低分辨率,模拟人类记忆的遗忘机制。在文档检索系统中,可以将大量文档以压缩图像形式存储,按需解压相关部分。在智能代理系统中,历史操作记录可以被压缩成视觉快照,既保留关键信息又节约计算资源。这种方法从本质上提供了一种新的长上下文管理范式,有望成为未来大语言模型处理超长文本的标准方案。原标题:《DeepSeek最新突破:用更少的“视觉符号"实现高效文档识别》 来源:互联科技焦点
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!