马里兰大学与Adobe团队:用ChartLens实现图表理解

B站影视 日本电影 2025-06-03 21:30 1

摘要:近年来,随着人工智能技术的发展,多模态大型语言模型(MLLMs)在图表理解方面取得了长足进步。然而,这些模型经常面临一个关键问题:幻觉现象——即模型生成的文本内容与所提供的视觉数据不符。这就像是我们请了一位解说员描述一张图表,但他却时不时地"凭空想象"出图表中

近年来,随着人工智能技术的发展,多模态大型语言模型(MLLMs)在图表理解方面取得了长足进步。然而,这些模型经常面临一个关键问题:幻觉现象——即模型生成的文本内容与所提供的视觉数据不符。这就像是我们请了一位解说员描述一张图表,但他却时不时地"凭空想象"出图表中并不存在的信息。这种现象在依赖精确数据的图表理解领域尤为严重,因为图表本身就是为了传达准确的数据关系而存在的。

2025年5月,马里兰大学学院公园分校的Manan Suri和Dinesh Manocha,以及Adobe研究院的Puneet Mathur、Nedim Lipka、Franck Dernoncourt和Ryan A. Rossi共同发表了一篇题为《ChartLens: Fine-grained Visual Attribution in Charts》的研究论文。这项研究为解决多模态大型语言模型在图表理解中的幻觉问题提供了一种新颖的解决方案。

想象一下,当我们使用AI来分析一张关于全球各国贸易数据的图表时,AI告诉我们"2005年,有3个国家的进口文件要求高于平均值"。这听起来很专业,但如何确定这个回答是基于图表的真实数据,而不是AI的"凭空想象"?ChartLens就像是给AI装上了一个"放大镜",它不仅能告诉我们答案,还能准确地指出图表中支持这个答案的具体元素(比如哪几个柱形或哪几个数据点)。

这种技术被称为"图表视觉归因"(Visual Attribution for Charts),它能够将文本回答与图表中的特定区域关联起来,让用户能够直观地验证AI生成内容的准确性。就像在学术论文中引用参考文献一样,这种归因机制让AI的回答变得可追溯、可验证,大大提高了系统的可靠性和透明度。

本文将详细介绍ChartLens这一创新技术的工作原理、评估方法以及其在提高图表理解准确性方面的突出表现。无论你是对AI技术感兴趣的普通读者,还是希望了解最新图表理解技术的专业人士,这篇文章都将为你揭示AI如何实现更透明、更可靠的图表理解能力。

一、背景:为什么图表归因如此重要?

在我们日常生活中,图表无处不在——从商业报告到科学研究,从新闻媒体到政策分析。图表之所以如此普及,是因为它们能够以直观的方式呈现复杂的数据关系。随着人工智能技术的发展,多模态大型语言模型(MLLMs)已经开始接管图表理解的任务,如图表问答、图表描述和图表到表格的转换等。

然而,图表理解面临着独特的挑战。与普通文本不同,图表包含精确的数量和复杂的关系,如趋势、比例和对比等。准确解读这些关系需要理解图表类型、数据编码方式以及各种视觉组件(如坐标轴、图例、颜色和形状)的布局。此外,归因任务还需要解开重叠的视觉元素,解决标签的歧义性,并一致地将视觉证据映射到文本答案。

想象一下,当金融分析师使用AI系统分析季度报告中的图表时,如果系统无法清楚地说明其结论是基于图表中的哪些具体元素,那么分析师就无法判断这些结论是基于真实数据还是受到了"幻觉"的影响。这种不透明性可能导致错误的结论,从而影响关键决策。在金融分析、政策制定和科学研究等领域,准确的数据解读对决策至关重要。

可靠的归因机制可以减轻这些风险,使模型的过程变得可验证。具体来说,它允许用户追踪模型的回答到图表中的可识别视觉元素。正如我们在日常对话中会说"根据这个图表的第三个柱子所示..."一样,AI系统也应该能够明确指出其回答的依据。这样一来,用户就可以确认生成的回答是直接由图表数据支持的,从而减少幻觉或错误解释的可能性。

二、ChartLens:细粒度图表归因的新方法

ChartLens是一种创新的图表归因算法,它能够识别支持给定问题答案的特定图表元素。这就像是给AI配备了一个精确的指向设备,当它回答关于图表的问题时,不仅能给出答案,还能明确指出"这个答案是基于图表中的这些特定元素"。

ChartLens的工作流程可以分为两个主要阶段:标记生成(Mark Generation)和多模态LLM归因(Attribution with Multimodal LLMs)。

在标记生成阶段,ChartLens首先识别并标记图表中的细粒度视觉特征,形成归因候选项集。这些标记充当视觉锚点,为多模态LLM提供基于位置的参考。有效的标记生成需要能够隔离单个图表组件,同时确保在各种图表类型和视觉风格中的稳健性。

对于柱状图,ChartLens首先使用Otsu阈值处理将输入图像二值化,这一步就像是将图像转换为黑白照片,突出显示重要的形状。如果图表有深色背景,二值化图像会被反转,确保前景特征(如柱形)被正确突出。然后,从二值化图像中生成一组初始轮廓,并通过使用唯一像素值将它们分解,隔离出单个柱形。为了消除不相关或虚假的轮廓,基于实心度和面积阈值应用过滤步骤,确保只保留定义明确的柱形。

对于饼图,分割从识别二值化图像中的最大轮廓开始,通常对应于饼图本身。然后计算该轮廓的最小外接圆,近似图表的边界。遵循Savva等人的方法,饼图沿径向轴展开,创建线性表示。在这种展开形式中,检测完整边缘以识别扇区边界,然后将其映射回原始圆形区域。这个过程产生对应于饼图各个切片的分段。

尽管这些启发式方法有效地利用了图表的结构和几何特性,但它们存在一些局限性。它们对噪声敏感,在低对比度图像上表现不佳,经常将网格线或标签等无关组件误认为图表元素。为了解决这些问题,ChartLens采用了分割任何物体模型(SAM)进行实例分割。具体来说,从每个检测到的元素中采样n个点,并将其用作SAM的提示。该模型生成精确包围与采样点相关的对象的掩码,克服了经典方法的缺点。

SAM的架构使其能够更稳健地处理嘈杂和低质量的图像。它生成与图表元素边界紧密对齐的精确掩码,即使在复杂情况下也是如此。此外,SAM自然抑制背景特征,如网格线,因为这些元素缺乏主要图表组件的空间连贯性,从而为这些元素生成较弱的掩码(低IoU)。与启发式方法不同,SAM在不需要大量参数调整的情况下,能够很好地泛化到各种图表类型和布局。

对于线图,ChartLens使用LineFormer提取线条。线条由于其细长的结构特征(如窄宽度、重叠轨迹和交叉线)而给分割带来了独特的挑战。这些特性使得经典计算机视觉方法或基于点的提示方法难以准确识别和分割线条,尤其是在密集或复杂的图表中。LineFormer利用Transformer架构提供的全局上下文来区分即使是紧密排列或相交的线条。在使用LineFormer检测候选线条后,我们沿着其水平范围将每条线分成等距的段。这些较小的段作为我们归因算法的细粒度标记。

在多模态LLM归因阶段,ChartLens使用一种称为"标记集提示"(Set-of-Marks prompting)的视觉提示技术,旨在利用多模态LLM的视觉定位能力。受Yang等人的启发,标记集提示将图像分割为不同粒度的区域,使用像SEEM或SAM这样的交互式分割模型。这些分割区域随后被叠加上视觉标记,如字母数字标签、掩码或边界框。这个标记过的图像作为输入提供给多模态LLM。

标记集提示之所以有效,是因为它实现了图像内的显式定位,帮助模型隔离不同区域并理解它们的空间关系。此外,通过标记这些元素,该技术简化了模型的推理过程,使其更容易在视觉定位任务中引用特定组件。这些因素的结合增强了模型解释和连接视觉信息与文本查询的能力。

在ChartLens的方法中,多模态LLM接收叠加了标记的图表图像。提示的结构旨在实现两个主要目标:验证和归因。提示首先解释图表归因的概念,提供问答(QA)对及其对应归因的几个文本示例。接下来,模型被指示遵循逐步思考(CoT)推理过程,执行验证和归因。

验证涉及确认QA对是否与图表图像中的信息一致。模型评估答案是否与图表中呈现的视觉元素和数据一致。归因要求模型识别并提及图表中支持给定答案的特定标记元素。通过明确引用这些元素,模型的回应变得更加透明,更容易验证。

三、ChartVA-Eval:为图表归因而生的基准测试集

为了评估图表视觉归因方法的性能,研究团队创建了ChartVA-Eval基准测试集。这个基准测试集包含了超过1200个样本,涵盖了合成图表和真实世界图表,来自金融、政策和经济等多个领域,并配有细粒度的归因注释。

ChartVA-Eval由三个关键数据集组成:MATSA-AITQA、PlotQA和ChartQA,每个数据集都提供了独特的特性和挑战。

MATSA-AITQA数据集源自美国主要航空公司2017年至2019年财政年度的SEC文件的表格问答。这些表格与问答对配对,并标注了支持答案的数据点对应的单元格。研究团队从这些表格生成了合成图表,通过应用主题、调色板、字体和设计元素(如网格线和刻度样式)的变化,产生了超过10,000种可能的样式组合。每个问答对都与单一视觉归因相关联。数据集包括分组柱状图、堆叠柱状图、简单柱状图(水平和垂直)以及折线图等图表类型。

PlotQA数据集专注于配有边界框注释和各种基于推理的问题的合成科学图表。数据集包括折线图和柱状图(垂直和水平),每个答案都有一个或多个视觉元素作为支持。这些图表的数据来自公开可获取的存储库,包括世界银行开放数据、开放政府数据和全球恐怖主义数据库。这种受控的合成环境允许评估需要仔细解释和逻辑推理的细粒度归因任务。

ChartQA数据集提供了真实世界的图表,伴有人工编写的问答注释。这些图表来自Statista、皮尤研究中心、"我们的世界数据"(OWID)和经济合作与发展组织(OECD)等平台。数据集包括各种图表类型,特别是饼图、折线图和柱状图。考虑到其他数据集中饼图的稀缺性,我们对它们进行了过采样以确保平衡表示。ChartQA捕捉了真实世界数据可视化中的复杂性和可变性,为评估归因模型提供了一个现实的基准。

对于归因注释,研究团队采用了混合方法,结合了大规模自动注释和人工验证。对于ChartQA和PlotQA数据集,他们利用GPT-4o生成初始注释,利用底层数据表格、问题和答案。具体来说,他们识别了频繁的问题模板,并为每个模板设计了定制的提示。例如,对于与基数相关的问答对,模型被指示选择基数计数中的所有数据点。这些自动注释随后通过人工验证进行细化。

在交互式设置中,注释者审查了图表上渲染的边界框,并根据两个标准评估注释:(1)相关性——确保注释的元素直接支持答案,以及(2)完整性——验证包含了所有必要的图表元素。这个过程确保了高质量和精确的归因注释。

四、实验与结果分析:ChartLens表现优异

为了全面评估ChartLens的性能,研究团队将其与几个基线方法进行了比较,包括零样本GPT-4o边界框提示、Kosmos-2和LISA。实验结果表明,ChartLens在所有图表类型上都显著优于这些基线方法,突显了其在视觉图表理解方面的稳健性和有效性。

首先,让我们了解一下这些基线方法。零样本GPT-4o边界框提示是一种方法,研究团队提示GPT-4o基于输入文本和视觉图表预测图表组件(如线条、柱形、饼图扇区)的归一化边界框坐标。这种方法与先前的零样本定位任务工作一致。Kosmos-2是一种在接地图像-文本数据(GrIT)上训练的多模态大型语言模型,它集成了文本到视觉定位能力。通过将对象位置表示为Markdown链接,它支持诸如指代表达理解、短语定位和多模态推理等任务,并为视觉定位任务生成边界框。LISA(大型语言指令分割助手)是一种基于推理的分割模型,它从隐含和复杂的文本查询生成掩码。通过引入标记并利用嵌入即掩码范式,LISA扩展了MLLM能力到推理分割,具有强大的零样本性能,并通过最小的任务特定微调进一步改进。

实验结果显示,在柱状图上,ChartLens实现了显著的性能改进,在ChartVA-AITQA上达到69.28的F1分数,在ChartVA-PlotQA上达到34.65,在ChartVA-ChartQA上达到64.14。相比之下,零样本ChatGPT4o的F1分数要低得多,分别为22.77、3.30和7.75,反映出其在数值推理和视觉归因方面的局限性。Kosmos2和LISA表现不佳,F1分数在各基准测试中均低于5,突显出它们由于视觉和数值推理不足而无法处理柱状图的情况。

对于折线图,ChartLens在ChartVA-AITQA、PlotQA和ChartQA上分别实现了59.14%、51.84%和77.8%的强检测精度,图表区域错误率低,分别为1.25%、9.98%和5.34%。虽然LISA和KOSMOS2实现了高检测率,但这主要是由于它们的归因覆盖了图表的大部分区域;覆盖图表的大面积使捕捉特定点变得不那么困难,但减少了归因的特异性,使它们在细粒度定位方面效果较差。相比之下,ChartLens将图表覆盖区域减少了约3-50倍。

在饼图上,ChartLens优于基线方法,F1分数达到48.56,显著高于零样本ChatGPT4o(7.17)、KOSMOS2(11.70)和LISA(2.41)。其精度(53.33)和召回率(44.57)证实了其准确归因饼图段的能力。相比之下,零样本ChatGPT4o和KOSMOS2在解释比例方面存在困难,而LISA的极低性能突显了其在处理饼图几何和分割任务方面的困难。

质性比较进一步展示了ChartLens与基线方法相比在柱状图、折线图和饼图上的优势。ChartLens一致地比基线方法更准确地识别和归因相关图表元素,展示了对数值和视觉关系的清晰理解。零样本ChatGPT4o尝试进行细粒度的特定选择,但由于使用基于文本的坐标表达归因,无法展示稳健的定位。LISA和KOSMOS2一致地引用典型的图表组件,如整个饼图或整个区域,但对给定查询不够敏感。

五、ChartLens的创新与局限性

ChartLens在细粒度视觉归因领域取得了显著进展,但它也存在一些值得注意的局限性。首先,系统依赖分割作为核心组件,分割过程中的任何不准确性都可能导致不完美或不完整的归因。然而,由于分割是模块化的,未来可以用更先进的方法改进或替换它。

其次,ChartLens主要关注视觉图表元素,如柱形、点或扇区,未考虑标题、标签或标题等文本组件。解决这一局限性并将基于文本的推理与视觉归因集成是未来研究的一个有前途的方向。

尽管存在这些局限性,ChartLens仍然为提高多模态大型语言模型在图表理解任务中的透明度和可靠性铺平了道路。通过其创新的标记生成和标记集提示方法,它实现了比竞争基线方法高26-66%的归因准确性。

六、总结与展望:迈向更透明的图表理解

ChartLens的研究为解决多模态大型语言模型在图表理解中的幻觉问题提供了一种有效的解决方案。通过将文本回答与图表中的特定视觉元素关联起来,它增强了模型输出的透明度和可验证性,这对于金融分析、政策制定和科学研究等关键应用领域至关重要。

这项研究的主要贡献包括:引入了针对图表的后验细粒度视觉归因任务,专注于确定支持给定图表相关文本回答的特定图表元素;提出了ChartVA-Eval基准测试集,包含超过1200个样本,涵盖了来自金融、政策和经济等多个领域的真实世界和合成图表;以及开发了ChartLens,一种基于多模态LLM的标记集提示的新型图表归因算法,该算法在评估中展示了显著的性能改进。

未来的工作方向包括将这些方法扩展到其他形式的视觉数据,以及提高算法在各种图表样式和复杂性中的稳健性。随着对透明和可验证的AI系统需求的增长,ChartLens这样的技术将在确保多模态大型语言模型输出的可靠性和可信度方面发挥关键作用。

究其根本,ChartLens代表了AI系统设计理念的一个重要转变——从仅关注准确性,到同时重视透明度和可解释性。正如科学研究需要引用来源,法律判决需要引用先例一样,AI系统的输出也应该能够明确其依据。ChartLens的工作表明,这种透明度不仅是技术上可行的,而且能够显著提高系统的可靠性和用户信任度。

对于关注AI发展的普通读者来说,ChartLens代表了一种更加负责任和值得信赖的AI方向——一种不仅能给出答案,还能解释其推理过程的AI。这种透明度将有助于AI系统在数据分析、商业智能和科学研究等关键领域获得更广泛的接受和采用。

如果你对这项研究感兴趣,可以通过arXiv:2505.19360v1查阅完整论文。随着研究的继续发展,我们期待看到像ChartLens这样的技术如何进一步改进,最终使AI系统在处理图表和其他视觉数据时变得更加透明、可靠和值得信赖。

来源:新浪财经

相关推荐