摘要:文档解析主要是指将扫描件PDF、多格式网页、图文混排电子书等非结构化、半结构化的文档,通过技术手段提取关键信息,并转化为机器可识别、可编辑的结构化数据的过程。其意义重大,是打通信息孤岛,将沉睡的数据变为能够深度挖掘、高效利用的数据资产的关键环节。
文档解析主要是指将扫描件PDF、多格式网页、图文混排电子书等非结构化、半结构化的文档,通过技术手段提取关键信息,并转化为机器可识别、可编辑的结构化数据的过程。其意义重大,是打通信息孤岛,将沉睡的数据变为能够深度挖掘、高效利用的数据资产的关键环节。
开源智能文档解析工具MinerU模型的出现,大大提高了文档解析的效率。联通元景万悟智能体平台开发团队联合昇腾团队,通过技术攻关,基于昇腾推出了业界领先的MinerU 智能文档解析服务,推理性能提升50%。目前该方案已上线GitHub和Gitee,极大便利了MinerU文档解析工具在昇腾NPU上的部署。
双方团队基于原生MinerU模型打造智能文档解析服务,完成三大核心升级,提供更强大的功能和易用性。对比分析如下:
功能对比原生MinerU元景万悟MinerU智能文档解析服务本方案的优势文档类型仅支持PDF/图片新增Word、PPT等格式支持主流文档,未来还将支持WPS/OFD等格式图片处理返回本地文件路径返回MinIO下载链接图片调用更友好,方便云端应用集成平台接入无作为模型服务直接接入元景万悟平台零代码配置,兼容云端和本地服务TorchAir(Torch Ascend Intermediate Representation)是昇腾为Ascend Extension for PyTorch(torch_npu)提供的图模式能力扩展库,支持用户使用PyTorch和torch_npu在昇腾设备上进行图模式的训练和推理。双方团队基于TorchAir对MinerU模型进行了系统性优化,实现了效率和性能的双重提升。具体包括以下两方面:
PyTorch图到GE图最优转换:基于TorchAir扩展库,在首次推理过程中,将PyTorch的FX计算图转换为昇腾GE计算图,实现在NPU上的PyTorch图模式推理,显著提升模型运行效率与整体性能。
前后处理优化:将部分算子替换成昇腾亲和的算子,轻量快速完成模型从GPU到NPU的迁移。另外,通过去除冗余操作,将多个算子下发合并成了一个GE图进行下发,减少总的算子下发耗时,进一步降低处理延迟,提升端到端推理性能。
经过以上优化,模型推理性能提升50%,相同的PDF文件,单页文档解析时间从优化前的0.46秒降低到现在的0.23秒。本次所采用的TorchAir优化方法,同样适用于小模型场景,能够在不改变模型结构的前提下,显著提升推理速度,具备良好的通用性与工程推广价值。
(1)导入服务:在元景万悟平台的【模型管理】中,新建模型服务,选择“联通元景”供应商。可接入云端或本地服务,具体如下:
【接入云端服务】接入联通元景MaaS平台云端的MinerU服务,配置URL及API key等信息即可完成接入(可前往https://maas.ai-yuanjing.com/ 申请API Key)。
【接入本地服务】接入本地部署的MinerU服务,无需填写API Key,仅需将URL填写本地服务调用地址即可完成接入。
点击确定后,回到模型管理列表中可以看到刚才接入的:MinerU文档解析服务,表示已经接入完成。
(2)开启使用:在【知识库】中导入文件,解析方式选择【模型解析】,并选择已导入的MinerU服务,即可享受强大的解析能力。
升级后的元景万悟知识库,RAG智能解析与检索效果实现了质的飞跃。无论是文档的标题结构、复杂图表,还是令人头疼的数学公式,都能被精准解析和还原。
PDF原始文档
解析后的Markdown还原效果
欢迎各位开发者前往体验:
项目地址:
来源:华为计算