DeepSeek 最新开源OCR模型,实测,不如百度

B站影视 港台电影 2025-10-24 11:31 2

摘要:DeepSeek 最近发布了《DeepSeek-OCR:基于视觉压缩的大模型长上下文增强方案》这篇论文,同步开源了模型文件。

大家好,我是 Ai 学习的老章

DeepSeek-OCR

DeepSeek 最近发布了《DeepSeek-OCR:基于视觉压缩的大模型长上下文增强方案》这篇论文,同步开源了模型文件。

最近一段时间好像是迎来了 OCR 的黄金时代,百度的 PaddleOCR-VL、阿里 Qwen3-VL、小红书的 dots-ocr、Nanonets-OCR2 等等。

更早之前我也测试过一些,阅读不佳就没再继续

论文上看,DeepSeek-OCR有两个核心,一个是纯粹的 OCR,这是本文测试的重点。

另一个就是上下文光学压缩(Contexts Optical Compression),解决了大模型在长上下文处理上的算力瓶颈。这玩意我是看不太懂,只看到市面上几乎全部文章吹捧。

DeepSeek-OCR 不仅是 OCR 模型,通过视觉压缩实现“以小博大”,在长文本处理上突破了算力与精度的平衡,是大模型长上下文的一个解决方案,它让 AI 的“记忆”更像人类,或许正在打开通往下一代智能的钥匙。Andrej Jarpathy 也给予 DeepSeek-OCR 极高评价

再回到 OCR 方面,DeepSeek-OCR 表现不俗:

压缩比 ≤10 倍时,准确率 >95%,几乎无损。

ICDAR 2023 数据集:10 倍压缩下准确率 97.3%,速度 8.2 页/秒,显存仅 4.5GB。

对比 MinerU2.0(6000+ tokens/页,1.5 页/秒,12.8GB 显存),优势明显。

财报:286 页年报,表格还原率 95.7%,耗时 4 分钟(

论文:公式识别率 92.1%,LaTeX 可直接使用。

合同:批注关联率 89.5%,比 Tesseract 高 27%。

DepSeek-OCR 实测--公式

我没有本地部署,直接使用了 HF 上一个 Space,应该是用的 Gradio 开发的

https://huggingface.co/spaces/khang119966/DeepSeek-OCR-DEMO

测试样例取自我之前这篇文章:

文中我测试几个大模型(Kimi、Qwen-3-235B-A22B、Claude-3.7-sonnet、GPT-4.1、Gemini 2.5 Pro)在 latex 公式识别中的表现,测试从带公式的图片中识别出公式代码,有两个手写公式识别,难度不小。当时 DeepSeek 不是多模态,没有参与对比,本文刚好补上。

例 1:中高难度,模糊手写,数字是欧洲写法,比如 7 中间加了一横,其中有一个 8 写的极像 6

之前我测试只有 Gemini 2.5 Pro 可以完成任务,DeepSeek-OCR 犯了和其他模型一样的问题,其中一个模糊的 8 识别成了 6。

另外这个工具有一段奇怪的字符串

删掉之后就正常了,后面几个,为了展示方便,我都删了

百度Paddle也没完成,8识别成了6.

例 2:简单点,印刷版,可以完成任务,这个太简单了,其他模型也都可以胜任

例 3:上难度,多个复杂公式一次识别

还行,有瑕疵,中间有奇怪符号,而且没有换行

百度完成的就很好

DeepSeek-OCR 完成的不错

例 5:最高难度,模糊手写,公式混在文本中,横线与笔记本自带的线混在一起

这个只有 Gemini 2.5 Pro 成功识别的题目,DeepSeek- OCR 完成的很一般

DeepSeek- OCR 没有把表头识别好

百度 paddle 就很 OK

中间很多我没有同时让百度表现,因为也是用了 HF 的 Space,很不稳定

总结看DeepSeek-OCR 确实很优秀,但是绝不是 SOTA 级别

补充说明,不是 DeepSeek-OCR 不好,它有我无法理解的伟大创新。单 OCR 这一块,单这几个实例,它确实不如百度 PaddleOCR-VL 这个 0.9B 的小模型。

此外,我还测试了一文中提到的 API,调用 DeepSeek-OCR 把 PDF 转 Markdown。

速度极快,22 页,一分钟不到。返回的是 json 格式,正文部分大量\n 预览起来很费劲,简单看,它没有去理解配图,其他都还行。

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!

来源:小盒科技观察

相关推荐