摘要:大家好,我是Jack Bytes,一个专注于将人工智能应用于日常生活的程序猿,平时主要分享AI、NAS、开源项目等。
大家好,我是Jack Bytes,一个专注于将人工智能应用于日常生活的程序猿,平时主要分享AI、NAS、开源项目等。
兄弟们,你们平时都是怎么处理文档,从文档中提取信息的呢?
无论是学术研究中的论文处理,还是企业办公中的报告分析,都需要高效、准确的文档解析工具。
今天,给大家介绍一款名为 MonkeyOCR 的文档解析工具,它采用创新的结构 - 识别 - 关系(SRR)三元组范式,让你快速、精准的识别文档并提取信息!
MonkeyOCR 是一个专注于文档解析的项目,它旨在简化模块化方法的多工具流水线,同时避免使用大型多模态模型处理全页文档时的低效问题。
该项目由 Zhang Li、Yuliang Liu 等多位开发者共同研发,相关成果已发布在 arXiv 上。其模型可在 HuggingFace 和 ModelScope 等平台获取,并且提供了公开的演示 Demo,方便用户直观感受其功能。
MonkeyOCR 在性能上表现出色,例如 MonkeyOCR - pro - 1.2B 在中文文档上的表现超过了 MonkeyOCR - 3B 7.4%,同时速度提升约 36%,性能仅下降约 1.6%;在 olmOCR - Bench 上,MonkeyOCR - pro - 1.2B 超过 Nanonets - OCR - 3B 7.3%;在 OmniDocBench 上,MonkeyOCR - pro - 3B 在中英文文档上均取得最佳整体性能,超过了包括 Gemini 2.0 - Flash、GPT - 4o 等在内的闭源和超大型开源 VLMs。
二、功能特性强大的文档解析能力:支持对 PDF 和图像等格式的文档进行解析,能够提取文本、公式、表格等结构化元素,并以 markdown 格式输出最终解析结果。
丰富的输出形式:除了生成 markdown 文件外,还能生成布局结果 PDF(在原始 PDF 上绘制布局结果)和中间块结果 JSON 文件(包含所有检测到的块的详细信息,如坐标、内容、类型及块之间的关系等)。
多样化的任务支持:可进行端到端解析、特定单任务识别(如仅识别文本、公式或表格)、对目录中的文件按特定页数分组解析等。
MonkeyOCR 提供了 Docker 的部署方式,首先 clone 项目:
git clone https://github.com/Yuliang-Liu/MonkeyOCR.git然后进入到 docker 目录:
cd docker若 GPU 支持未启用,运行bash env.sh设置环境。
然后运行下面的命令构建镜像:
docker compose build monkeyocr对于特定系列 GPU(如 20/30/40 系列、V100 等),需构建补丁镜像:
docker compose build monkeyocr-fix运行 Gradio demo 容器(端口 7860):
docker compose up monkeyocr-demo或启动交互式开发环境:
docker compose run --rm monkeyocr-devdocker compose up monkeyocr-api服务运行后可在http://localhost:7861/docs查看 API 文档。
MonkeyOCR 作为一款采用创新 SRR 三元组范式的文档解析工具,在性能、速度和功能丰富度上都展现出显著优势。
它能够高效处理中英文 PDF 和图像文档,提供多种输出形式和灵活的部署方式,满足不同用户在学术研究、企业办公等场景下的文档解析需求。
无论是需要快速提取文档中的关键信息,还是进行复杂的文档结构分析,MonkeyOCR 都不失为一个优秀的选择。
一个专注于将人工智能应用于日常生活的半吊子程序猿!
平时主要分享AI、NAS、Docker、搞机技巧、开源项目等技术,喜欢的话请关注吧!
注: 文中图片来源于 MonkeyOCR项目主页
来源:JackBytes