摘要:我们今天来看看OCR的任务,先从OCR任务评估说起,看看评估,然后再看几个代表的面向文档OCR的工作,包括KOSMOS2.5、TextMonkey、Florence、GOT。
文章转自公众号老刘说NLP
我们今天来看看OCR的任务,先从OCR任务评估说起,看看评估,然后再看几个代表的面向文档OCR的工作,包括KOSMOS2.5、TextMonkey、Florence、GOT。
供各位参考,多思考,多总结,多实践;
一、从OCR任务评估CCOCR说起
关于OCR任务这块,可以看看《CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy》,https://arxiv.org/pdf/2412.02210,有效评估大型多模态模型(LMMs)在复杂视觉和文本理解任务中的表现,特别是在自然语言指令下的文档图像识别任务。
里面有几个点可以关注。
一个是看看数据分布。CC-OCR覆盖十大主要语言,涵盖文档、自然场景、网页和手写文本四种场景,包括四个以OCR为中心的赛道:多场景文本阅读、多语言文本阅读、文档解析和关键信息提取。英语部分利用了现有的学术基准数据集,如TotalText、IC15、HierAgent、FunSD、CORD、IAM、InverseText和LAION-OCR。中文部分则完全为新收集的数据,包括街景(Scene-zh)、网络场景(UGC-ver-zh、DAST-zh)和文档(Doc-zh、Doc-hw-zh)
一个是关于数据标注,注释分为文本、结构化文档、表格和信息提取四种类型。文本注释包括多场景和多语言OCR的文本转录和词级定位;文档注释使用LaTeX格式表示,手写公式和化学分子公式使用SMILES格式;表格结构使用HTML格式表示;信息提取任务的注释统一为JSON格式。
一个是可以熟悉下其评估指标,使用Eval-Trans和Eval-Pos评估文本序列和位置序列,使用Normalized Edit Distance (NED) 评估文档解析和公式识别,使用Tree Edit Distance-based Similarity (TEDS) 评估表格解析,使用字段级F1评分评估视觉信息提取。
一个是用来做评估的模型,模选择了九个代表性的LMMs进行评估,包括五个通用模型(GPT-4o、Gemini-1.5、Claude3.5、Qwen2-VL、InternVL2)和四个专业模型(KOSMOS2.5、TextMonkey、Florence、GOT)。
我们比较关注文档解析方面的性能,所以可以看下结果论:
在文档解析任务中,除了GOT外,其他专用模型不支持LaTeX或HTML格式,因此主要评估通用模型。Gemini、Qwen-VL和GPT-4o在各种文档解析子集中表现优异,Gemini得分最高,为62.37。然而,顶级模型在所有子集中的平均得分仍低于70%,表明文档解析基准测试具有挑战性。
例如,Gemini在文档内容结构上的平均得分为67.17%,在表格识别上的平均得分为67.93%。此外,大多数模型在英文文档上的表现优于中文文档,例如Gemini在英文表格上的得分为64.55%,而在中文表格上的得分为66.01%。
二、几个代表的面向文档OCR的多模态大模型工作
这里展开来说下,上面提到的专用模型。
1、KOSMOS2.5
KOSMOS2.5:《KOSMOS-2.5: A Multimodal Literate Model》(https://arxiv.org/abs/2309.11419),构建了一个包含3.574亿页文档图像的大型语料库,涵盖扫描文档、普通文档、学术论文、网页、设计图像、手写文本、数学内容和项目文档。每份文档都用文本行和边界框或Markdown格式进行注释。
在模型上,采用共享解码器自回归Transformer架构,结合基于ViT的视觉编码器和基于Transformer的语言解码器,通过重采样模块连接两者。视觉编码器初始化自Pix2Struct-Large模型的编码器,使用可变分辨率策略提取固定大小的补丁;图像表示通过图像编码器和重采样器获得,文本表示通过文本分词和嵌入获得。
对于带有边界框的文本行,将坐标转换为离散位置标记;预训练任务包括文档级文本识别和图像到Markdown生成。文档级文本识别任务生成具有空间感知的文本块,每个文本块被分配其在图像中的空间坐标。图像到Markdown生成任务生成包含样式和结构的Markdown格式文本输出;微调任务包括文档理解任务,使用文档理解任务提示进行微调,生成回答用户问题的文本。
这个里面还有关于评估的部分,OCREval和MarkdownEval,分别用于文档级文本识别和图像到Markdown生成任务的评估。OCREval包含2297个样本,涵盖手写文本、设计文档、收据、学术论文、网页、数学内容、表格等。MarkdownEval包含5633个样本,涵盖数学公式、学术论文、表格、普通文档和项目文档。这些可以用于我们进行评估。
2、TextMonkey
《TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document》(https://arxiv.org/abs/2403.04473),使用滑动窗口模块将高分辨率图像分割成窗口块,然后使用Transformer块单独处理每个窗口块。为了建立不同窗口块之间的联系,模型在特定间隔内集成了移位窗口注意力,通过共享图像重采样器处理子图像特征,然后与语言领域对齐,最终,使用Token Resampler进一步减少语言空间中的冗余,通过压缩token长度来减少冗余。
3、Florence
《Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks》(https://arxiv.org/pdf/2311.06242),采用序列到序列(seq2seq)结构,包含图像编码器和多模态编码器-解码器。图像编码器将图像转换为视觉token嵌入,与文本嵌入结合后由Transformer处理。
这个其实也算不上是OCR模型。
4、GOT
《General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model》(https://arxiv.org/pdf/2409.01704)提出了一个名为GOT的模型,用于解决OCR任务中的多样化需求。
在模型架构上,G采用高压缩率的编码器和长上下文解码器,总共包含580M参数。编码器将光学图像转换为标记,解码器则输出相应的OCR结果。编码器部分使用了VitDet架构,解码器部分则采用了Qwen-0.5B;
在训练上,首先对视觉编码器进行纯文本识别任务的预训练,使用一个较小的解码器来传递梯度。预训练阶段使用了约500万张图像-文本对,包括自然场景数据和文档级数据;在预训练完成后,将训练好的视觉编码器与一个新的更大解码器连接起来,使用更多的通用OCR数据进行扩展训练。这一阶段的数据包括数学公式、分子结构、表格和乐谱等;最后,通过后训练解码器部分,进一步定制GOT以支持细粒度、多页和动态分辨率OCR功能。
总结
我们们今天主要围绕OCR-free这个话题,先从OCR任务评估说起,看看评估,然后再看了几个代表的面向文档OCR的工作。
可以看到,其核心还是数据上的构造。
参考文献
1、https://arxiv.org/pdf/2412.02210
2、https://arxiv.org/abs/2309.11419
3、https://arxiv.org/abs/2403.04473
4、https://arxiv.org/pdf/2409.01704
来源:360亿方云