SridBench:首个科研插图绘制基准测试揭示AI绘图能力

B站影视 日本电影 2025-06-03 21:32 1

摘要:2025年5月,来自中国科学技术大学、上海创新研究院、南开大学、武汉大学和上海人工智能实验室的研究团队在arXiv平台发布了一项开创性研究,论文题为《SridBench: Benchmark of Scientific Research Illustratio

2025年5月,来自中国科学技术大学、上海创新研究院、南开大学、武汉大学和上海人工智能实验室的研究团队在arXiv平台发布了一项开创性研究,论文题为《SridBench: Benchmark of Scientific Research Illustration Drawing of Image Generation Model》(SridBench:图像生成模型科研插图绘制基准测试),预计将提交至2025年神经信息处理系统大会(NeurIPS 2025)。这项研究由Yifan Chang、Yukang Feng、Jianwen Sun、Jiaxin Ai、Chuanhao Li、S. Kevin Zhou和Kaipeng Zhang共同完成,其中Kaipeng Zhang教授担任通讯作者。

一、研究背景:科研插图自动化的迫切需求

想象一下,你是一位正在准备重要学术论文的科学家。你的研究成果丰硕,但要向同行清晰展示你的复杂理论框架、实验流程或数据结构,你需要制作精美的科研插图。然而,这些插图往往需要耗费你数小时的宝贵时间,还可能需要使用昂贵的专业软件工具,更不用说反复修改的过程了。这正是科研工作者面临的真实困境。

近年来,人工智能领域取得了长足进步,特别是在图像生成领域。最初的扩散模型(如Stable Diffusion、DALL·E和Flux)专注于提升图像的视觉质量,而最新的多模态模型(如GPT-4o-image)则开始整合高级推理能力,展现出更强的语义理解和结构组合能力。这些进展让我们看到了自动化科研插图绘制的希望。

科研插图生成是一项极具挑战性的任务。与普通图像生成不同,它要求模型能够精确理解复杂的技术描述,并将抽象结构转化为清晰、标准化的视觉表达。这是一项知识密集型任务,需要模型具备深厚的专业知识和推理能力。近期调查显示,制作一张科研图表通常需要数小时的人工劳动,经常需要使用昂贵的软件工具,并进行反复修改。如果能够以可控且智能的方式自动化这一过程,将为科研工作带来巨大的实际效益。

然而,目前尚无基准测试能系统评估AI在此任务上的表现。为填补这一空白,来自多所高校和研究机构的研究团队提出了SridBench,这是首个专为评估多模态模型在科学图表生成方面能力而设计的基准测试。

二、SridBench基准测试:设计与实现

SridBench就像是一位严格的科研绘图考官。想象一下,这位考官收集了各个学科的权威科学论文,精心挑选了其中的高质量图表,并设计了一套全面的评分标准,用来考核AI模型的科研绘图能力。那么,这位考官是如何工作的呢?

首先,研究团队通过人类专家和多模态大语言模型(MLLM)的协作,从权威科学论文网站上收集并筛选了1,120个高质量样本。这些样本横跨了13个学科领域,涵盖了自然科学和计算机科学两大类。具体来说,在计算机科学类别下包含了软件工程、机器人学、网络与互联网架构、人机交互、分布式与并行计算、计算机视觉与模式识别、密码学与安全、计算与语言、硬件架构九个方向,而自然科学类别下则包含了物理学、有机化学、地理环境和生物结构四个方向。

为了确保数据的科学性和权威性,研究团队采用了严格的筛选标准。他们首先从arXiv和Nature等权威平台下载论文,然后使用多模态大语言模型初步判断图表类型,筛选出概念图、模型框架图、流程图和结构图等科研示意图(而非实验结果图表、统计数据分析图或真实照片)。人类专家随后对筛选结果进行审核,确保所选图表清晰、科学、严谨,且具有一定表现力。每个样本都包含了三个关键元素:原始图像、图像说明文字和相关章节内容。

评估框架是SridBench的另一个核心创新。研究团队设计了六个评估维度,包括: 1. 文本信息完整性:生成的图表是否包含了参考图表中的所有文本信息 2. 文本信息准确性:文本信息是否科学严谨 3. 图表结构完整性:是否绘制了图表的所有元素 4. 图表逻辑性:元素排列是否科学合理 5. 认知可读性:图表是否便于读者简洁地理解内容 6. 美学感受:图表是否具有美感或设计感

评分采用1到5的等级制(1:不合格,2:较差,3:一般,4:良好,5:优秀)。研究团队不仅支持人类专家评估,还开发了基于GPT-4o等多模态大模型的自动评分机制,经验证这种自动评分与人类专家的评分高度一致。

三、实验设置:模型与数据的详细分析

在这项研究中,团队选择了三种主流图像生成模型进行测试:GPT-4o-image、Gemini-2.0-Flash和Emu-3。由于Emu-3生成图像需要耗费过长时间,团队主要对GPT-4o-image和Gemini-2.0-Flash进行了定量分析,并使用GPT-4o作为自动评分工具。

在数据收集过程中,研究团队特别注重样本的质量和多样性。计算机科学类数据来自arXiv和顶级期刊会议,而自然科学类数据则来自Nature网站的Reviews & Analysis部分。对于arXiv上的论文,研究团队优先选择了引用次数超过25次的论文,确保了数据的权威性和质量。每个方向精选了100个三元组数据(图像、说明文字、相关章节),而Nature部分则精选了220个高质量三元组。

为了便于更深入的分析,研究团队还对计算机科学图像进行了更细致的功能分类,包括软件设计、名词分类、数学结构、硬件设计、工程系统设计、算法流程、AI模型和其他类型八个类别。自然科学图像则被分为物理图表、有机化学图表、地理环境图表和生物结构图表四种类型。

生成过程中,研究团队将图像说明文字和相关章节内容填入精心设计的提示模板中,然后使用图像生成模型绘制科研插图。通过MLLM的API,他们实现了批量自动化的图像生成过程。得到生成结果后,研究人员将它们与原始图像进行比较,并根据六个维度进行评分。

四、研究结果:AI模型与人类专家仍有明显差距

研究结果就像一面镜子,清晰地反映出当前AI模型在科研绘图领域的真实能力。想象一下,你正在评价一位初学者和一位专业画师的作品差距。

首先,在整体表现上,Gemini-2.0-Flash在六个评估维度上的得分均低于2分,表明该模型几乎不具备绘制专业科研插图的能力。它在"图表结构完整性"维度获得了相对最高的分数,说明该模型对科研绘图的基本风格和框架结构有一定理解,但在具体内容表达、科学逻辑推理方面几乎毫无能力。

相比之下,GPT-4o-image表现出明显优势。无论是计算机科学还是自然科学主题,该模型在各项指标上的得分普遍在3分左右,部分指标甚至超过3分。这意味着GPT-4o-image的科研绘图能力已达到人类可接受的基本标准。研究团队还随机选取了50个自然科学和50个计算机科学的三元组数据,让Gemini-2.0-pro、GPT-4o和人类专家同时进行独立评分。结果表明,GPT-4o的评分与人类专家基本一致,而Gemini-2.0-pro的评分则与人类评分存在明显偏差。

在自然科学数据上,GPT-4o-image生成的图像元素(如细胞结构、传感器结构等)的完整性明显高于文本元素的完整性。虽然该模型无法完整表达所有文本信息,但能保证已表达文本的准确性。然而,在逻辑性、简洁性和美学方面,GPT-4o-image得分低于平均水平,说明自然科学图像渲染的整体外观和感觉仍有很大改进空间。值得注意的是,GPT-4o-image在不同自然科学学科之间的表现差异不大,显示出较为均衡的跨学科能力。

在计算机科学数据方面,GPT-4o-image在文本信息完整性和准确性指标上的得分明显下降。与自然科学图表相比,计算机科学图表通常包含更多文字和更复杂的流程结构,这使得GPT-4o-image在生成图像和文本元素时面临更大挑战。不过,另一个显著改进是GPT-4o-image在可读性和美学方面的能力提升。这与计算机科学图表的示意性质相关,因为大多数计算机科学图表是由文本、边框和箭头等元素组成的流程图,对于这类图表,GPT-4o-image更容易绘制。

五、案例分析:生成图像的典型问题

研究团队通过详细比较三种图像生成模型(Emu-3、Gemini-2.0-Flash和GPT-4o-image)与原始论文图像的差异,揭示了当前AI模型在科研绘图中面临的典型问题。

从实例来看,Emu-3完全不具备科学写作的理解能力,其生成的内容与要求毫无关联。Gemini-2.0-Flash的表现略好一些,但通常只是在图像中绘制文本,没有图形元素,而且文本问题严重,更像是符号而非文字。在部分自然科学图像生成中,虽然出现了类似植物的结构,但生成的图像仍然难以解读。

GPT-4o-image在内容生成质量上显著优于其他模型。它能生成定义清晰、表达良好的文本,图表结构清晰,且能在生成结果中反映参考图像的基本元素。可以说,GPT-4o-image已具备初步的、相对合格的科学文本理解和图像生成能力,能够简单明了地生成具有科学性、推理性和逻辑性的图像。

然而,这仅是初步能力。研究团队指出,GPT-4o-image在生成科研插图时仍存在显著问题,如元素缺失、文本表达遗漏和错误等。例如,在绘制天文模型时,GPT-4o-image会出现太阳围绕地球运转的常识性错误;在绘制有机化合物结构时,反应条件标注不正确,涉及的化合物和反应结果也未正确绘制;在地理位置理解和地图生成方面,虽具备基本能力,但在更精确的定位和地理过程解释上仍有错误和遗漏。

与人类专家绘制的参考图像相比,当前AI模型在正确性和科学准确性方面仍有显著差距。研究表明,即使是表现最好的GPT-4o-image,其科研绘图能力也仅达到一般水平,距离专业标准尚有较大差距。

六、结论与未来展望:AI科研绘图的漫长之路

这项研究首次系统评估了AI模型在科研插图绘制任务上的表现,揭示了当前技术的能力边界和局限性。研究发现,除GPT-4o-image外,其他图像生成模型(如Gemini-2.0-Flash)几乎不具备任何科研绘图能力。而GPT-4o-image虽然能初步完成科研绘图任务,生成清晰的文本和完整的结构,但仍面临三大主要挑战:文本信息缺失、视觉元素缺失以及科学常识错误。

这些发现表明,当前AI模型在科研插图生成这一强推理任务中仍有巨大的提升空间。研究团队认为,如何改进图像生成模型在强推理任务中的生成能力应成为未来研究者关注的焦点。

SridBench作为首个专门评估科研插图绘制能力的基准测试,不仅提供了宝贵的数据资源,也建立了多维度的评估协议,为未来的研究提供了系统比较的基础。随着AI技术的不断发展,我们有理由相信,未来的图像生成模型将能更好地理解科学文本,生成更准确、更专业的科研插图,为科学研究和知识传播提供有力支持。

对于普通用户而言,这项研究意味着虽然当前的AI绘图工具已能生成基本合格的科研示意图,但在制作高质量、高准确度的学术论文插图时,人类专家的参与仍然不可或缺。不过,随着技术的进步,我们可以期待未来的AI助手能够大幅减轻科研人员在图表制作方面的工作负担,让他们将更多精力投入到科研本身。

来源:至顶网一点号

相关推荐