挖到了个逆天的开源文档识别 OCR 工具，支持本地部署，太顶了！

摘要：大家好，我是Jack Bytes，一个专注于将人工智能应用于日常生活的程序猿，平时主要分享AI、NAS、开源项目等。

大家好，我是Jack Bytes，一个专注于将人工智能应用于日常生活的程序猿，平时主要分享AI、NAS、开源项目等。

兄弟们，你们平时都是怎么处理文档，从文档中提取信息的呢？

无论是学术研究中的论文处理，还是企业办公中的报告分析，都需要高效、准确的文档解析工具。

今天，给大家介绍一款名为 MonkeyOCR 的文档解析工具，它采用创新的结构 - 识别 - 关系（SRR）三元组范式，让你快速、精准的识别文档并提取信息！

MonkeyOCR 是一个专注于文档解析的项目，它旨在简化模块化方法的多工具流水线，同时避免使用大型多模态模型处理全页文档时的低效问题。

该项目由 Zhang Li、Yuliang Liu 等多位开发者共同研发，相关成果已发布在 arXiv 上。其模型可在 HuggingFace 和 ModelScope 等平台获取，并且提供了公开的演示 Demo，方便用户直观感受其功能。

MonkeyOCR 在性能上表现出色，例如 MonkeyOCR - pro - 1.2B 在中文文档上的表现超过了 MonkeyOCR - 3B 7.4%，同时速度提升约 36%，性能仅下降约 1.6%；在 olmOCR - Bench 上，MonkeyOCR - pro - 1.2B 超过 Nanonets - OCR - 3B 7.3%；在 OmniDocBench 上，MonkeyOCR - pro - 3B 在中英文文档上均取得最佳整体性能，超过了包括 Gemini 2.0 - Flash、GPT - 4o 等在内的闭源和超大型开源 VLMs。

二、功能特性强大的文档解析能力：支持对 PDF 和图像等格式的文档进行解析，能够提取文本、公式、表格等结构化元素，并以 markdown 格式输出最终解析结果。

丰富的输出形式：除了生成 markdown 文件外，还能生成布局结果 PDF（在原始 PDF 上绘制布局结果）和中间块结果 JSON 文件（包含所有检测到的块的详细信息，如坐标、内容、类型及块之间的关系等）。

多样化的任务支持：可进行端到端解析、特定单任务识别（如仅识别文本、公式或表格）、对目录中的文件按特定页数分组解析等。

多平台演示：提供了可视化 Demo（http://vlrlabmonkey.xyz:7685）和 Gradio Demo，用户可以上传 PDF 或图像进行解析操作，还能基于选定的提示对图像进行内容识别。灵活的部署方式：支持本地安装使用，也可通过 Docker 进行部署，还能启动 FastAPI 服务供接口调用。模型选择与优化：支持 PP - DocLayout_plus - L 模型，该模型比 doclayout_yolo 性能更优；同时支持模型量化，可使用 AWQ 进行量化以适应不同的硬件环境。

MonkeyOCR 提供了 Docker 的部署方式，首先 clone 项目：

git clone https://github.com/Yuliang-Liu/MonkeyOCR.git

然后进入到 docker 目录：

cd docker

若 GPU 支持未启用，运行bash env.sh设置环境。

然后运行下面的命令构建镜像：

docker compose build monkeyocr

对于特定系列 GPU（如 20/30/40 系列、V100 等），需构建补丁镜像：

docker compose build monkeyocr-fix

运行 Gradio demo 容器（端口 7860）：

docker compose up monkeyocr-demo

或启动交互式开发环境：