多模态RAG技术:从语义抽取到VLM应用与规模化挑战

B站影视 2025-01-04 09:00 3

摘要:多模态 RAG 的发展方向旨在构建一个高度集成的系统,能够无缝融合文本、图像和其它多媒体元素,为用户提供更丰富的信息交互体验。

导读本次分享聚焦于多模态 RAG 的实现路径与发展前景。

核心议题涵盖五方面:

1. 基于语义抽取的多模态 RAG

2. 基于 VLM 的多模态 RAG

3. 如何 Scale 基于 VLM 的多模态 RAG

4. 技术路线的选择

5. 问答环节

分享嘉宾|金海 Infiniflow 联合创始人

编辑整理|王红雨

内容校对|李瑶

出品社区|DataFun

01

基于语义抽取的多模态 RAG

多模态 RAG 的发展方向旨在构建一个高度集成的系统,能够无缝融合文本、图像和其它多媒体元素,为用户提供更丰富的信息交互体验。

实现多模态 RAG 系统的三种主要技术路径如下:

传统对象识别与解析(雕花路线)传统的多模态文档处理首先会运用图像识别技术,如 OCR(Optical Character Recognition,光学字符识别),从图像中抽取出文字、表格和图片等元素。之后,这些独立的对象会被进一步解析,转换成文本格式,以便于后续的信息检索与分析。采用 Transformer 架构近年来,深度学习模型,特别是 Transformer 架构,在自然语言处理领域取得了巨大成功。在多模态 RAG 上,这种方法涉及使用编码器(EnCoder)对整个文档进行编码,再由解码器(Decoder)将编码后的信息转化为可读文本。这种方法与第一种类似,只是模型不同,第一种用的是 CNN,这种是 Transformer。此法的优势在于可以更好地捕捉上下文依赖关系,提高信息的连贯性和一致性。采用视觉语言模型第三种方式是直接利用视觉语言模型(Visual Language Model, VLM)处理多模态数据。此类模型可以直接接收文档、图片或视频等形式的原始输入,将其转化为向量(Patch Embedding)。这些向量可用于构建更加精细的文档嵌入,有助于增强 RAG 系统的检索和生成能力。尤其值得一提的是,由于单一向量难以充分反映复杂文档的所有方面,使用多向量(或称为张量)成为了优选方案,以减少信息丢失,更全面地代表文档含义。

下面来具体看一下路线一,我们称其为“雕花”式路线。

从上图中可以看到,文档通常富含图形和表格,如折线图、饼状图和柱状图,甚至存在表格跨页、合并单元格等复杂情况,处理难度较高。

该路线的核心步骤如上图所示。首先进行文档结构识别,区分各个组成部分,明确哪些是段落、哪些是表格、哪些是图表等。针对每一类识别出的对象进一步解析,对于文本部分,采用 OCR 技术转录文字;对于图表,则需专门的模型进行识别和解析,理解其内容与意义。

“雕花”路线的特点在于其深度和广度,几乎覆盖了文档内的每一个细节。耗时费力,但对于确保信息的全面性和精准性具有不可替代的作用。但其处理效率相对较低,自动化程度受限,尤其面对大规模数据集时,挑战更为显著。

路线一的 RAG 架构是最基础的 RAG:文档被细分成 chunks,每一块包含可独立处理的内容片段,通过 Embedding 模型将每块转换成向量,以便在向量数据库中进行相似性检索,检索结果作为提示词提供给大模型。

实际应用场景下会更为复杂,需要进入更深层次的 RAG 架构。文档布局模型识别出不同布局后,分离不同类型的 chunks。之后进行检索,会用到全文索引、向量索引、稀疏向量索引以及图索引等。检索召回后,利用 Tensor Reranker 进行重排序,提升检索效果。最后交由大模型生成回答。

在此过程中,面对复杂文档,如果没有“雕花”的过程,那么一定会存在信息混乱,导致“Garbage in, garbage out”。

我们根据第一种路线,设计了 RAGFlow 的功能模块,并通过 Infinity 数据库提供向量处理。

在“雕花”过程中,表格识别是一大难点。

表格通常布局复杂,需要判定单元格边界、识别表头和合并的单元格,还要判断跨页结构,对色彩标记、图表嵌入等进行识别,处理难度很大。

我们实现了利用 Transformer 架构对表格内容进行解析。

采用 VAE(Variational Auto Encoder)提取图片特征,经过 Encoder 生成 Code Book,再经过 Decoder 得到最终结果。如果结果一致,则证明 Code Book 可以准确表达表格结构和内容。再来训练 Encoder 和 Decoder,最后生成 HTML 表格。生成的表格与原表格经过严格对比,确认无误后,我们就认为 Transformer 模型是准确有效的。

此流程不仅适用于表格识别,亦可用于流程图、饼状图、柱状图等其它图表类型的解析。

02

基于 VLM 的多模态 RAG

接下来介绍另一种路线——基于视觉语言模型的多模态 RAG。

VLM 能够同时处理图像与文本信息,对复合媒介资料提供全面解析。如上图中所示,模型不仅能够识别出图像中猫的位置,精确定位猫的轮廓,还可以回答关于图像内容的提问,体现出其强大的多模态认知能力。下面来看一下 VLM 的进展。

2024 年见证了多模态语言模型的迅猛崛起,以 GPT-4o 为代表的各种开源、闭源模型百花齐放,标志着多模态领域的重大进步。今年是多模态模型的爆发之年,那么明年是否会是多模态 RAG 的爆发之年呢?下面来看一些相关的例子。

使用 PaliGemma 模型针对 PDF 文档进行问答,例如提问 2018 年中国 IDC 市场规模有多大,模型直接给出了柱状图中的具体数字,非常准确。

又如,对 Qwen2 模型提问一张图表中的内容,模型也给出了准确而详细的解析。

上图中展示的是一篇利用 VLM 实现多模态搜索的论文,其中用到了 ColPali 方法,即基于上下文的延迟交互。其核心理念是将多模态文档转换为多维向量,再运用相似度匹配,交予大型模型生成答案,这一流程与现代 RAG 类似。其最为重要的一点是多模态信息如何表达。传统搜索引擎使用全文索引,提取关键词进行检索,然后用倒排索引的方式进行打分。而在 AI 时代,文本采用向量的方式进行表达,可显著提升信息处理效能。

ColPali 系统的评估标准为 nDCG(归一化折减累积增益),显示出相比于以往方法,其准确度有了质的飞跃,达到了 80% 以上的水平,较之前低于 60% 的结果有着显著改进。实验表明,在特定数据集(如 MLDR)上的表现亦十分出色,实现了接近 70% 的准确度,充分证明了技术的有效性。

前面提到,ColPali 用到了基于上下文的延迟交互,也就是上图中最右边的一种模型。图中第一种,Dual Encoder,是现在常用的利用向量数据库做相似度匹配的方式。文档经模型转换为一系列向量,之后聚合简化为单个向量,用于快速查询和匹配。这种方式的优势是速度快,效率高。局限性在于信息大量丢失,难以精确定位文档与查询间的关联。

于是,引入了 Reranker,即图中第二种方式,Cross Encoder。通过初筛获取候选 chunks 后,采用该方式重新排序,模型根据相关性排序,再作为提示词。这种方式的问题是需借助 GPU 运行,且文档数量受限。

因此出现了延迟交互模型。首先将文档生成为多向量(或称为张量)存储。用户查询时,同样转化为张量形式,计算内积 MaxSim 得分,而非依赖模型计算。这样可以显著减少计算量,待选文档数量就可以增大,最后召回率就可以得到提升。

ColPali 就是采用了这种方式。将 PDF 文档切为 1024 个 patches,每个 patch 使用 128 维向量表示,这样一个 PDF 文档就转成了包含 1024 个向量的张量。

一个 PDF 切分为多页,每页采用一个 Tensor 来表示。

计算 MaxSim 得分。

上图中列出了一些相关模型的效果。它们都是名字中包含了“Col”的版本,相较于之前传统版本都有着显著提升。

03

如何 Scale 基于 VLM 的多模态 RAG

接下来探讨如何应用基于 VLM 的多模态 RAG。

第一个挑战是数据规模变大,Tensor 复杂度增加。例如前面提到的,用 1024 个向量来表示一个文档,无论存储复杂度还是计算复杂度都大幅上升。

那么在张量之上是否还有必要建索引呢?索引对降低计算规模的作用是有限的。因此我们采取了对张量进行二值化处理等方式来减小数据规模。我们也发现,用张量做重排序,和直接用张量作为第一次搜索排序,其准确度是相近的。

因此,利用 Infinity 数据库,第一轮搜索采用全文搜索、稠密向量搜索和稀疏向量搜索,搜索得到的结果再经过 Tensor Reranker 重排序。

Infinity 数据库针对结构化数据、稠密向量、稀疏向量、张量、全文搜索都有对应的索引,还可以进行融合搜索。

从上图展示的测试结果中可以看到,蓝色部分是没有采用张量方式的搜索,BM25 是全文搜索,效果较好,而现在常用的稠密向量搜索效果最差。我们还对搜索方式两两进行排列组合,结果发现,组合和类型越多,搜索准确度越高。黄色是加上了张量重排序的搜索,可以看到准确度得到了显著提升。

延迟交互将是 RAG 的未来发展趋势。JaColBERT 和 Jina-ColBERT v2 都展现出了积极的进展。

04

如何选择技术路线

上图所示的工作中认为视觉语言模型的路线更具优势。但我们认为雕花路线和视觉语言模型各有所长,对于抽象图像较多的文档更适合采用 VLM 的方式,相反则更适合传统手段。

两种路线将长期并存:

基于 Transformer 的新一代 OCR,针对多模态文档的提取精度更加准确。OCR 和 VLM 可以长期共存。支持 Tensor 的延迟交互将是未来多模态 RAG 的标配选择。

05

问答环节

Q1:如何应对多模态可能比自然语言拥有更大状态空间的挑战?是否有尝试标准化处理?

A1:将图表映射为 Excel 是一种理想化的处理方式,但难度非常大,首先已有的大量文档无法都转为 Excel,另外 Excel 的美观性和展示效果还是有欠缺的。

Q2:为何选择张量而非向量计算?

A2:向量维度固定,而张量尺寸灵活,适应变长数据。向量数据库无法直接处理变长数据,故转向张量计算。

以上就是本次分享的内容,谢谢大家。

来源:DataFunTalk

相关推荐