摘要:像 GPT-4o、Qwen2.5-VL、SEED1.5-VL 这类端到端模型,在处理 PDF 扫描件时表现亮眼,不仅能提取文字,还能做表格分析、图表解读,甚至回答复杂问题。
开源文档解析OCR工具
在之前的文章中,我们聊过各种集成式或者端到端的 PDF 文档解析工具。
像 GPT-4o、Qwen2.5-VL、SEED1.5-VL 这类端到端模型,在处理 PDF 扫描件时表现亮眼,不仅能提取文字,还能做表格分析、图表解读,甚至回答复杂问题。
像 MonkeyOCR、Tesseract 这类集成式的模型,支持识别文本、图像、表格、公式、手写体、表单字段、页眉页脚等各种细粒度的元素。
但是上述模型均没有特别关注文本本身的属性。而识别文本属性(如粗体、斜体、下划线和删除线)对于理解文本的语义、结构和视觉呈现至关重要。这些属性能够突出关键信息,使其成为文档分析的核心要素。识别出的属性还可用于增强文本转语音系统的能力。
例如,在法律文件中,“违约方”是否加粗可能决定责任归属;在学术论文里,斜体物种名 是国际规范;下划线在词下方添加额外笔画以吸引注意或指示链接;在修改稿中,被划掉的内容往往比保留的文字更重要。文本属性识别的挑战:是下划线还是分割线?
因此,文本属性不是装饰,而是语义增强的关键信号,对应的真正的智能文档解析,必须包含文本属性识别能力。
来自印度国际信息技术学院的研究团队提出了一项工作:TexTAR:首个专为多语言、多领域文档设计的文本属性识别模型。
它不仅能识别出每个词是否为粗体、斜体、下划线、删除线,还能结合空间邻域上下文信息做出精准判断,真正让AI能进行单词级别的文本属性预测。
TexTAR 从原始文档中提取包含邻域上下文的图像块作为输入。例如,一个目标词周围5个词范围内的布局、字体、行距都被纳入考虑,从而提升了判别能力。
模型采用基于Transformer的编码器,并引入一种类“二维旋转位置编码(2D RoPE)”的机制,显式建模词语之间的相对空间关系。从而让模型能理解:“这个词在标题区域”,“它左边是编号,右边是冒号” 等信息。
最后其采用多任务学习框架,将属性分为两组进行联合预测:T1组包含粗体、斜体及其组合,T2组包含下划线、删除线及其组合,这种分组策略既降低了任务复杂度,又保证了高精度。
团队同步发布了多语言多领域文本属性文档(MMTAD)数据集,该数据集经专门整理用于识别文档中词汇的多种文本属性。
数据集包含 1623 张真实的多语言、多领域文档图像,这些图像采样自真实语料库,涵盖多种光照条件、版面布局、背景纹理、字体、噪声模式、扫描伪影、分辨率、颜色变化及其他失真情况。
数据集提供了 1,117,716 个针对多文本属性的全面词级标注,覆盖多样领域与语言,使其成为多语言、多领域文本属性分析的首个此类资源。这些文档包括通知、通告、立法文件、土地记录、教科书及公证文件。
文档数量1,623 张真实文档覆盖语言英语、西班牙语 + 8种南亚语言(印地语、泰卢固语、孟加拉语等)领域覆盖法律文书、土地记录、教科书、通知、公证文件等标注总量超110万条词级标注属性类型支持4类基本属性及16种组合最后,关注视觉大模型与多模态大模型的小伙伴们可留言区回复‘加群’进入大模型交流群、视觉应用落地交流群!
来源:码科智能一点号1