PaddleOCR-VL开源文档解析模型 (0.9B)

摘要：您是否曾被文档解析的复杂性所困扰？无论是处理扫描合同、从财务报告中提取表格，还是识别论文中的公式，传统的 OCR 工具在面对多样化的布局和复杂的元素时，往往不堪重负。更何况，那些高效的大型模型往往拥有数百甚至数百亿个参数，这使得本地部署和高效推理成为一种奢望。

您是否曾被文档解析的复杂性所困扰？无论是处理扫描合同、从财务报告中提取表格，还是识别论文中的公式，传统的 OCR 工具在面对多样化的布局和复杂的元素时，往往不堪重负。更何况，那些高效的大型模型往往拥有数百甚至数百亿个参数，这使得本地部署和高效推理成为一种奢望。

今天，我想向大家介绍一个由百度开源的项目——PaddleOCR-VL，它或许能改变这一现状。它巧妙地平衡了性能和效率，凭借仅 9 亿个参数的超紧凑视觉语言模型，实现了业界领先（SOTA）的多语言文档解析能力。

PaddleOCR-VL 的核心是一个名为 PaddleOCR-VL-0.9B 的视觉语言模型 (VLM)。它创新地将 NaViT 风格的动态分辨率视觉编码器与轻量级 ERNIE-4.5-0.3B 语言模型相结合。

这种设计的优势在于：

小巧而强大：它在保持高精度的同时，大幅降低了计算资源消耗，能够在标准硬件上实现高效实用的文档处理。多功能解析：它超越了简单的文本识别。无论是常规文本、复杂表格、手写公式还是图表，它都能准确识别和解析。多语言支持：它支持 109 种语言，包括中文、英语、日语、韩语、拉丁语系文字，以及俄语、阿拉伯语、印地语等，轻松满足全球文档处理需求。

简而言之，PaddleOCR-VL 让开发者充满信心：“这款工具解决了我实际使用的文档解析问题，而且它足够轻量，我可以在自己的项目中实际使用它。”

2、模型架构

表格识别：

文档解析：

如果您感兴趣，可以访问该在线地址，亲自体验其文档解析功能。

4、快速入门

首先，您需要安装 PaddlePaddle 和 PaddleOCR。官方建议使用 Linux 环境（Windows 用户可以使用 WSL 或 Docker）。

python -m pip install paddlepaddle-gpu==3.2.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/python -m pip install -U "paddleocr[doc-parser]"python -m pip install https://paddle-whl.bj.bcebos.com/nightly/cu126/safetensors/safetensors-0.6.2.dev0-cp38-abi3-linux_x86_64.whl

安装完成后，无论是通过命令行还是 Python API，使用都非常方便。

paddleocr doc_parser -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/paddleocr_vl_demo.png

Python API：

from paddleocr import PaddleOCRVLpipeline = PaddleOCRVLoutput = pipeline.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/paddleocr_vl_demo.png")for res in output: res.print res.save_to_json(save_path="output") res.save_to_markdown(save_path="output")5、性能

PaddleOCR-VL 在 OmniDocBench 上，在整体、文本、公式、表格和阅读顺序方面均达到了 SOTA 性能v1.5：