这个开源的端到端OCR模型厉害了!覆盖全文档、全表格、全公式!

B站影视 内地电影 2025-10-15 04:33 1

摘要:上篇文章分享了一个阿里开源的复杂文档解析模型,专门解决阅读顺序的问题。今天再来分享目前业界最高识别精度的开源模型,其在文本识别、公式识别、表格识别与阅读顺序预测四项任务中均刷新纪录。

MinerU2.5 在 OmniDocBench 上性能霸榜

上篇文章分享了一个阿里开源的复杂文档解析模型,专门解决阅读顺序的问题。今天再来分享目前业界最高识别精度的开源模型,其在文本识别、公式识别、表格识别与阅读顺序预测四项任务中均刷新纪录。

真实场景的文档除了内容复杂:经常将密集的文本、复杂的表格、数学表达式、嵌入式图形和手写注释结合在一起。还涉及图像分辨率更高、版面更复杂等问题。

传统OCR模型对复杂版面效果较差

传统流水线式 OCR 模型常将任务拆为版面检测、文本识别、阅读顺序等模块,如 Marker 串行调用 Surya OCR,MinerU 调用 PDF-Extract-Kit 协调多个专模。模块化利于单独优化,但误差会级联,且面对多栏、跨页等复杂版面鲁棒性不足,维护更新繁琐。

通用VLM与端到端VLM的问题

通用视觉语言模型 Gemini2.5 Pro、Qwen2.5-VL-72B 最大的优点就是零样本泛化好,但是在解析密集文本、复杂文档类型时易幻觉,可靠性受限。

领域专用 VLM 端到端模型 GOT、Ocean-OCR、olmOCR、dots.ocr 等用原生分辨率编码器统一识别文本、公式、表格、图表,但联合优化导致复杂版面精度下降,长文档幻觉问题突出。

上海人工智能实验室最近推出并开源了 MinerU2.5,旨在用单一统一模型实现原生分辨率精细识别,一个仅 12 亿参数的文档解析视觉-语言模型,在保持极高计算效率的同时,实现了业界最高的识别精度。

MinerU2.5 模型的整体架构设计借鉴经典 Qwen2-VL 框架,核心升级是采用“由粗到细”的两阶段解析策略,将全局版面分析与局部内容识别解耦。

第一阶段,模型在低分辨率图像上快速完成版面分析,定位结构元素,规避高分辨率输入带来的巨大计算开销;

第二阶段,在全局版面先验的引导下,从原图截取关键区域,以原生分辨率进行精细内容识别,从而保留密集文本、复杂公式和表格中的细粒度细节。

模型整体架构由三大组件构成,语言模型的解码器采用 0.5B 参数的 Qwen2-Instruct;视觉模型的编码器初始化自Qwen2-VL,可灵活处理任意分辨率与宽高比的图像;为平衡效率与性能,采用像素打乱操作将相邻视觉 token 聚合,从而降低 token 数量。源码、论文及模型如下:

# 论文https://arxiv.org/pdf/2509.22186# 代码https://github.com/opendatalab/MinerU# 项目https://mp.weixin.qq.com/s/qzHEYPhgeF4UdlGphI-QNg?token=1479711943&lang=zh_CN

现有模型在长公式或多行公式解析上表现不佳,且 VLM 极易出现结构性幻觉。为应对复合公式的复杂度,提出 ADR 框架,采用多阶段“分而治之”策略。

整个处理流程由通用 MinerU2.5 驱动,它既充当版面分析器,又充当识别引擎。通过版面分析将复合公式拆分为原子行,分别裁剪成独立图像,然后每行独立识别为 LaTeX,最后利用初始版面分析得到的行位置信息,把各片段按顺序、对齐关系重新拼装成单个完整的公式块。

复杂长表格的解析,尤其是对以 HTML 为输出目标的 VLM 而言,一直是一大难题。MinerU2.5 采用一种优化的表格结构语言为稳健处理复杂表格。

首先检测表格边框与旋转角,裁剪并旋转至规范方向;然后对矫正后图像进行识别,得到 OTSL 结构,其与表格视觉 2D 矩阵直接对应,平均序列长度缩短约 50%,显著降低模型生成难度;最终将其直接转换成标准 HTML,简单高效。

原论文通过多页文档的解析输出样例,定性展示 MinerU2.5 的能力,在包含复杂元素的 PDF 页面中,MinerU2.5 全面领先现有 SOTA 模型,比如整页表格、内容极密表格、大量空单元格彩表、多表紧密排列、不规则合并单元格表、完全无线表——竞品出现“结构错误、结构丢失、内容丢失、表格分裂”等错误时,MinerU2.5 仍能输出正确结果。

针对图文交替复杂版面、极细框线表格、带水印页面——MinerU2.5 依旧表现优异,竞品则出现漏检、错检或水印干扰导致的全面失效。更多对比结果可查阅原论文。

字节开源!端到端的方式实现布局分析、图表识别、公式还原等

开源OCRFlux工具:跨页段落及表格合并 + 复杂布局精准还原,仅需3090即可部署!

2.4k Star!布局分析、文字识别与关系预测三位一体!开源OCR文档解析新范式

来源:码科智能一点号1

相关推荐