摘要:一个是用在医疗领域进行病理分析,叫做Path-RAG,有分而治之的思想;另一个是V-RAG多模态多文档问答集成多编码器投票和重排机制;不是太创新的工作,但是其中的流程思路,还是有工程指引的。
文章转自公众号老刘说NLP
我们继续跟进多模态RAG方向,目前,这块还是集中于文档以及特定场景的应用上进行挖掘,所以近期有几个工作,可以从中找到一些思路。
一个是用在医疗领域进行病理分析,叫做Path-RAG,有分而治之的思想;另一个是V-RAG多模态多文档问答集成多编码器投票和重排机制;不是太创新的工作,但是其中的流程思路,还是有工程指引的。
多思考,多总结,多实践;
一、Path-RAG拆解思想用于多模态病理分析
多模态RAG进展,先看在领域场景中的应用,《Path-RAG: Knowledge-Guided Key Region Retrieval for Open-ended Pathology Visual Question Answering》(https://arxiv.org/abs/2411.17073),可以看看,用来做医学病理分析,要解决的问题是开放式病理学视觉问答(PathVQA-Open),即利用病理学图像进行复杂的问题回答。
思路很直接,如下图所示:
具体来说,四个点:
首先,进行图像分解,使用HistoCartography工具中的不同模块提取相关图像块,即将病理学图像分解为不同的对象和文本,以丰富领域知识。具体操作是,使用染色归一化器克服输入图像中的染色变异性;使用核提取器模块检测处理后的图像中的核;基于ResNet34的深度特征提取器提取每个核周围的邻域图像块;使用图构建器基于DGL构建图,使每个核与其最近的5个邻居相连;将病理学图像划分为多个重叠的图像块,并根据核的数量对这些图像块进行排序,选择排名靠前的图像块进行后续处理。
然后,进行图像块描述和候选答案提取,使用LLaVA-Med模型生成每个图像块的开放式描述,并独立生成候选答案。LLaVA-Med是一个在生物医学数据上微调的多模态模型,能够生成关于生物医学图像的开放式描述。
最后,使用GPT-4模型对提取的文本描述进行推理,生成最终答案。对于非病理学图像,直接将完整图像的描述传递给GPT-4以获得最终响应。对于病理学图像,将LLaVA-Med生成的每个图像块和原始图像一起传递给GPT-4进行推理。
二、V-RAG多模态多文档问答集成多编码器投票和重排机制
如何在大规模文档集合中进行高效的视觉文档检索和理解,这是当前文档多模态场景的一个趋势。
所以,在这块,有个一个工作,《Document Haystacks:大规模视觉文档检索与理解,Document Haystacks: Vision-Language Reasoning Over Piles of 1000+ Documents》:https://arxiv.org/pdf/2411.16740,https://github.com/Vision-CAIR/dochaystacks,其提出两个新的基准数据集DocHaystack和InfoHaystack,每个问题映射到达1000个视觉文档,以更准确地模拟大规模文档检索场景。
有几个思路可以借鉴:
一个是其中提到的V-RAG多模态文档检索思路。核心就是结合了多个多模态视觉编码器和一个专用的问答文档相关性模块,其中:
在视觉编码器集成上,V-RAG结合多个多模态视觉编码器,包括CLIP(https://github.com/openai/CLIP)、SigLIP(https://arxiv.org/pdf/2303.15343)以及OpenCLIP(https://github.com/mlfoundations/open_clip),每个编码器都有其独特的优势,用于增强检索精度。这些编码器通过计算每个问题与所有文档的相似度得分来工作,并将这些得分平均化以得到最终的相关性得分。
在LMM过滤模块上,利用预训练的LLM评估每个选定的文档与问题的相关性,保留“是”回答的文档,移除不相关的文档。
在排序阶段,采用两阶段检索过程,通过两阶段的检索过程来识别和排序与每个问题相关的文档。首先,计算每个问题与文档集中所有文档的相似性得分,然后根据平均相似性得分对文档进行排序,选择前m个最相关的文档进行进一步分析。
最后,将前k个最相关的图像输入LLM-VQA模型,直接生成答案。为了提高鲁棒性,可以在微调过程中引入随机采样的干扰图像。
当然,可以更具像化的理解一个例子:
总结
本文主要讲了两个事儿,一个是用在医疗领域进行病理分析,叫做Path-RAG,有分而治之的思想;另一个是V-RAG多模态多文档问答集成多编码器投票和重排机制;这些都是集成的方案。
参考文献
1、https://arxiv.org/abs/2411.17073
2、https://arxiv.org/pdf/2411.16740
来源:360亿方云