挖到了个逆天的开源文档识别 OCR 工具,支持本地部署,太顶了!

B站影视 电影资讯 2025-10-17 15:51 1

摘要:大家好,我是Jack Bytes,一个专注于将人工智能应用于日常生活的程序猿,平时主要分享AI、NAS、开源项目等。

大家好,我是Jack Bytes,一个专注于将人工智能应用于日常生活的程序猿,平时主要分享AI、NAS、开源项目等。

兄弟们,你们平时都是怎么处理文档,从文档中提取信息的呢?

无论是学术研究中的论文处理,还是企业办公中的报告分析,都需要高效、准确的文档解析工具

今天,给大家介绍一款名为 MonkeyOCR 的文档解析工具,它采用创新的结构 - 识别 - 关系(SRR)三元组范式,让你快速、精准的识别文档并提取信息

MonkeyOCR 是一个专注于文档解析的项目,它旨在简化模块化方法的多工具流水线,同时避免使用大型多模态模型处理全页文档时的低效问题。

该项目由 Zhang Li、Yuliang Liu 等多位开发者共同研发,相关成果已发布在 arXiv 上。其模型可在 HuggingFace 和 ModelScope 等平台获取,并且提供了公开的演示 Demo,方便用户直观感受其功能。

MonkeyOCR 在性能上表现出色,例如 MonkeyOCR - pro - 1.2B 在中文文档上的表现超过了 MonkeyOCR - 3B 7.4%,同时速度提升约 36%,性能仅下降约 1.6%;在 olmOCR - Bench 上,MonkeyOCR - pro - 1.2B 超过 Nanonets - OCR - 3B 7.3%;在 OmniDocBench 上,MonkeyOCR - pro - 3B 在中英文文档上均取得最佳整体性能,超过了包括 Gemini 2.0 - Flash、GPT - 4o 等在内的闭源和超大型开源 VLMs。

二、功能特性强大的文档解析能力:支持对 PDF 和图像等格式的文档进行解析,能够提取文本、公式、表格等结构化元素,并以 markdown 格式输出最终解析结果。

丰富的输出形式:除了生成 markdown 文件外,还能生成布局结果 PDF(在原始 PDF 上绘制布局结果)和中间块结果 JSON 文件(包含所有检测到的块的详细信息,如坐标、内容、类型及块之间的关系等)。

多样化的任务支持:可进行端到端解析、特定单任务识别(如仅识别文本、公式或表格)、对目录中的文件按特定页数分组解析等。

多平台演示:提供了可视化 Demo(http://vlrlabmonkey.xyz:7685)和 Gradio Demo,用户可以上传 PDF 或图像进行解析操作,还能基于选定的提示对图像进行内容识别。灵活的部署方式:支持本地安装使用,也可通过 Docker 进行部署,还能启动 FastAPI 服务供接口调用。模型选择与优化:支持 PP - DocLayout_plus - L 模型,该模型比 doclayout_yolo 性能更优;同时支持模型量化,可使用 AWQ 进行量化以适应不同的硬件环境。

MonkeyOCR 提供了 Docker 的部署方式,首先 clone 项目:

git clone https://github.com/Yuliang-Liu/MonkeyOCR.git

然后进入到 docker 目录:

cd docker

若 GPU 支持未启用,运行bash env.sh设置环境。

然后运行下面的命令构建镜像:

docker compose build monkeyocr

对于特定系列 GPU(如 20/30/40 系列、V100 等),需构建补丁镜像:

docker compose build monkeyocr-fix

运行 Gradio demo 容器(端口 7860):

docker compose up monkeyocr-demo

或启动交互式开发环境:

docker compose run --rm monkeyocr-devdocker compose up monkeyocr-api

服务运行后可在http://localhost:7861/docs查看 API 文档。

MonkeyOCR 作为一款采用创新 SRR 三元组范式的文档解析工具,在性能速度功能丰富度上都展现出显著优势。

它能够高效处理中英文 PDF图像文档,提供多种输出形式和灵活的部署方式,满足不同用户在学术研究、企业办公等场景下的文档解析需求。

无论是需要快速提取文档中的关键信息,还是进行复杂的文档结构分析,MonkeyOCR 都不失为一个优秀的选择。

一个专注于将人工智能应用于日常生活的半吊子程序猿!

平时主要分享AI、NAS、Docker、搞机技巧、开源项目等技术,喜欢的话请关注吧!

注: 文中图片来源于 MonkeyOCR项目主页

来源:JackBytes

相关推荐