文本处理革命来临!DeepSeek再破纪录,全新OCR模型颠覆传统

B站影视 内地电影 2025-10-22 19:10 1

摘要:其最新发布的DeepSeek-OCR模型,不仅重新定义了光学字符识别(OCR)的技术边界,更挑战了传统文本处理的核心逻辑。

在人工智能领域,DeepSeek再次以突破性成果引发全球关注。

其最新发布的DeepSeek-OCR模型,不仅重新定义了光学字符识别(OCR)的技术边界,更挑战了传统文本处理的核心逻辑。

这一模型摒弃了将文本作为通用输入的方式,转而采用视觉像素处理,实现了前所未有的效率提升。

具体而言,DeepSeek-OCR在单张A100-40G显卡上每秒可处理约2500个Token,速度惊人。同时,它在保持97%高准确率的基础上,将视觉上下文压缩至原大小的1/20,日常使用中压缩比轻松低于1/10。

例如,在OmniDocBench基准测试中,一整页密集文本被压缩为仅100个视觉Token,实现了高达60倍的压缩率,仿佛将百页书籍浓缩为一张图片,而AI仍能精准解读。

DeepSeek-OCR的优势不仅体现在速度和压缩率上,还涵盖了多语言支持与实用性。

模型支持100种语言,参数规模精简,在工程层面堪称巅峰之作。

这一突破性进展证明了实体页面(如书籍和缩微胶片)作为训练数据源的优越性,远胜于互联网上常见的低质量文本。

开源后,项目一夜之间在GitHub上收获4.4k星标,显示出社区对其技术价值的广泛认可。

从技术原理看,DeepSeek-OCR将文本转化为像素点处理,避免了传统分词器(tokenizer)的局限性,从而提升了信息处理的通用性和效率。

个人认为,这种视觉优先的方法不仅解决了当前OCR任务的瓶颈,还为AI在多模态学习中的发展指明了方向。

未来,模型或能更自然地融合文本与图像理解,推动通用人工智能的进步。

DeepSeek-OCR的发布迅速引发了行业领袖的热议,其中特斯拉前AI总监、OpenAI创始成员Karpathy的力挺尤为引人注目。

他直言不讳地表达了对传统分词器的不满,认为其“丑陋”且非端到端,引入了Unicode和字节编码的复杂性问题,甚至带来安全风险。

例如,一个简单的表情符号在传统模型中可能被处理为无关的Token,而像素输入则能保留其丰富的视觉信息,实现更高效的迁移学习。

Karpathy强调,视觉输入具备天然优势:更高的信息压缩率可缩短上下文窗口,提升处理效率。

同时,它能支持双向注意力机制,而文本通常受限于自回归训练,难以并行化。

更有趣的是,他提出一个前瞻性设想,大语言模型的所有输入是否都应改为图像?

即使面对纯文本,先渲染为图像再处理可能更合理,因为这能增强信息流的通用性,支持粗体、彩色文本乃至任意图像的处理。

这一观点得到了部分网友的呼应,有人甚至呼吁Karpathy开发仅使用图像输入的“nanochat”项目,以探索“光学认知”的潜力。

然而,也有质疑声音指出,将图像切割为块(patches)可能产生类似分词的问题。

但Karpathy反驳称,核心差异在于像素通常被编码(encoded),而Token被解码(decoded),这本质上是更优化的信息流设计。

与此同时,马斯克从更宏大的视角提出猜想:长期来看,AI模型超过99%的输入和输出将是光子,这呼应了宇宙中光子总量的巨大规模(约1.5×10⁸⁹个)。

个人看来,DeepSeek-OCR的成功不仅是技术突破,更是一场范式转移的序幕。

它提醒我们,AI的进化不应局限于文本的“识字”阶段,而应迈向多模态的“感知”时代。

尽管完全依赖图像输入的模型仍需验证,但这一趋势已不可逆转,开源社区的活跃也预示着未来将有更多创新应用涌现。

来源:米奇来了

相关推荐