马里兰大学团队：大模型能欺骗CLIP吗？测试多模态对抗能力

摘要：近日，首尔国立大学的研究团队Jaewoo Ahn、Heeseung Yun、Dayoon Ko和Gunhee Kim在arXiv上发表了一篇引人深思的研究论文，题为《Can LLMs Deceive CLIP? Benchmarking Adversarial

近日，首尔国立大学的研究团队Jaewoo Ahn、Heeseung Yun、Dayoon Ko和Gunhee Kim在arXiv上发表了一篇引人深思的研究论文，题为《Can LLMs Deceive CLIP? Benchmarking Adversarial Compositionality of Pre-trained Multimodal Representation via Text Updates》（arXiv:2505.22943v1 [cs.CL]，2025年5月28日）。这项研究探索了一个引人入胜的问题：我们是否可以通过巧妙修改文本描述，让强大的多模态系统产生错误判断？

想象一下，你看到一张婴儿坐在床上触碰笔记本电脑的图片。对于人类来说，描述这张图片再简单不过了。但研究团队惊讶地发现，当他们稍微改变描述文本，比如写成"床坐在婴儿上面"时，一些先进的AI系统反而认为这个错误描述与图片的匹配度更高！这种违反常识的判断并非偶然现象，而是揭示了当前多模态系统中一个普遍存在的问题。

在这个数字时代，像CLIP（对比图像-语言预训练）这样的多模态表示系统已经成为许多应用的基础，从图像搜索到内容生成，甚至到AI评价模型，它们无处不在。但这些系统是否真正理解了它们所处理的内容？首尔国立大学的研究团队设计了一种名为"多模态对抗组合性"（MAC）的基准测试，使用大语言模型（如Llama-3.1-8B）生成具有欺骗性的文本样本，来测试这些系统的弱点。

这就像是给AI设置了一个"文字陷阱"——看看它能否分辨出巧妙修改过的描述中的错误逻辑关系。研究者不仅关注单个攻击的成功率，还评估了整体攻击的多样性，为我们提供了一个全面了解当前多模态系统弱点的窗口。

让我们一起深入了解这项研究如何揭示AI系统的组合性漏洞，以及研究团队提出的创新解决方案如何帮助我们构建更强大、更可靠的多模态系统。

一、多模态系统的组合性弱点：问题所在

想象你正在使用一个智能相册应用，它可以根据你的语音指令找出特定的照片。你说："找出我和朋友在海滩上打排球的照片"，但系统却给你展示了朋友在海滩上打羽毛球的照片。这听起来很荒谬，但类似的错误在当今最先进的多模态AI系统中却经常发生。

现代多模态表示系统（如CLIP）的核心工作原理，就像是一个双语翻译官，同时精通"图像语言"和人类语言，能够判断两者之间的匹配程度。这些系统通过大规模的图像-文本配对数据训练，学会了将不同模态的信息（如图像、视频、音频）与文本描述对齐。

然而，研究团队发现，这些系统存在一个关键弱点：它们在理解组合性关系时表现不佳。所谓组合性关系，就是文本中词语之间的结构化关系，比如"谁在做什么"、"什么东西有什么特性"等。对人类来说，理解"婴儿坐在床上"和"床坐在婴儿上"的区别不费吹灰之力，但对AI系统来说，这种区分却可能充满挑战。

为什么这个问题如此重要？因为多模态系统已经深入到我们日常使用的许多应用中：

1. 当你在搜索引擎中搜索图片时，多模态系统决定了哪些图片与你的搜索词匹配。 2. 当你使用AI生成图像时，多模态系统帮助确保生成的图像与你的描述一致。 3. 当AI评价系统判断内容质量时，它们依赖多模态表示来理解内容是否准确。

如果这些系统在基本的组合关系上出错，那么它们的可靠性将大打折扣。首尔国立大学的研究团队正是瞄准了这个问题，提出了一个系统性的方法来测试和改进多模态系统的组合性理解能力。

二、MAC：一个全面的测试基准

研究团队提出的多模态对抗组合性（MAC）基准测试，就像是为多模态系统设计的一套"智力测验"。这个测试的独特之处在于它不局限于特定类型的媒体，而是可以应用于图像、视频和音频等多种模态。

MAC的基本思路很简单：给定一个原始的多模态数据对（比如一张图片和它的描述文本），使用大语言模型生成欺骗性的文本描述，这些描述虽然与原始文本相似，但包含了错误的组合关系。然后，测试目标多模态系统是否会错误地认为这些欺骗性描述比原始描述更匹配图片。

举个例子，假设原始数据是一张"婴儿坐在床上触碰笔记本电脑键盘"的图片。MAC可能生成以下欺骗性描述：

1. "床坐在婴儿上面触碰笔记本电脑键盘"（交换了主体和客体） 2. "婴儿坐在床上意外地发送了一封电子邮件"（改变了动作和结果）

如果多模态系统错误地认为这些描述与图片的匹配度更高，那么就暴露了它在组合性理解上的弱点。

MAC不仅仅关注单个攻击是否成功，还评估攻击的多样性。这就像不仅测试学生能否解出一道数学题，还要测试他们是否能解决各种不同类型的数学问题。具体来说，MAC从以下几个维度评估多模态系统：

### 样本级评估

想象你是一位食品安全检查员，需要评估餐厅的卫生状况。你不会只检查一个方面，而是会从多个角度进行全面检查。MAC也采用了类似的多角度评估方法：

1. 跨模态标准：欺骗性描述是否真的成功欺骗了系统？系统是否真的认为修改后的描述与图片/视频/音频更匹配？

2. 单模态标准：欺骗性描述是否真的与原始描述存在语义差异？这就像确保我们不是通过同义改写来"作弊"。研究者使用自然语言推理模型来判断两段文本之间是否存在推断关系。

3. 距离标准：欺骗性描述与原始描述的编辑距离是否适中？这确保了我们不是通过完全重写文本来实现欺骗。

4. 辅助标准：欺骗性描述是否遵循了预定义的规则？比如，如果要求通过交换词语位置来生成欺骗性描述，那么最终生成的描述是否确实使用了这种方法。

只有当一个欺骗性样本同时满足所有这些标准时，它才被视为一次成功的攻击。这就像一道多重锁的门，只有所有锁都打开了，门才能被推开。

### 组级多样性评估

成功的攻击只是故事的一半。想象一下，如果一个学生只会使用一种方法解题，即使这种方法对某些问题很有效，我们也不能说这个学生真正掌握了知识。同样，如果一个攻击方法只使用单一的模式，那么它可能只是发现了多模态系统的一个特定弱点，而不是全面评估了系统的组合性理解能力。

为了衡量攻击的多样性，研究团队引入了基于熵的指标。他们首先构建了一组"属性增强型标记"，这些标记代表了从原始文本到欺骗性文本的转换过程中的插入和删除操作。然后，他们计算这些标记的分布熵，熵值越高，表示攻击使用的操作越多样化。

除了熵，研究团队还使用了两个补充指标：distinct-1（不同标记占所有标记的比例）和归一化熵（熵除以不同标记的数量）。这些指标共同提供了对攻击多样性的全面评估。

三、使用大语言模型生成欺骗性文本

研究团队选择了大语言模型（LLM）作为生成欺骗性文本的工具，这就像选择了一位精通文字游戏的高手来设计文字谜题。为什么选择LLM而不是规则基础的方法或人工标注？

首先，规则基础的方法（如简单的词语交换）往往会产生不自然、不流畅的文本。想象一下机械地交换句子中的名词位置，结果常常是语法混乱的句子。其次，虽然人工标注可以提供高质量的文本，但成本高昂且难以大规模实施。相比之下，LLM可以生成流畅自然的文本，且可以轻松扩展到大规模数据集。

研究团队采用了两种提示策略来指导LLM生成欺骗性文本：

1. 通用欺骗提示：要求LLM生成一个修改后的描述，使其在多模态系统中获得更高的相似度，同时与原始描述存在语义差异。这种方法不限制LLM使用的修改方法。

2. 特定欺骗提示：要求LLM使用特定的修改策略，如替换对象、交换属性或添加元素。这种方法可以测试多模态系统对特定类型修改的敏感性。

实验结果表明，通用提示通常比特定提示产生更有效的欺骗性文本，这就像自由发挥的创意通常比按照固定模板创作更有新意。

四、多样性促进自训练：创新的解决方案

仅仅使用LLM生成欺骗性文本是不够的。就像一个初学者可能只会使用有限的技巧，原始的LLM生成的欺骗性文本也可能缺乏多样性。为了解决这个问题，研究团队提出了一种创新的自训练方法。

想象你正在教一个孩子解决数学问题。最初，孩子可能只会一种解题方法。但如果你让孩子学习那些成功解决问题的不同方法，孩子的解题能力会大大提高。研究团队的自训练方法正是基于这个思路。

具体来说，自训练过程包括以下步骤：

1. 使用基础LLM生成多个欺骗性文本候选项。 2. 筛选出那些成功欺骗目标系统的文本。 3. 使用这些成功样本进一步训练LLM，使其更善于生成欺骗性文本。

这种方法被称为拒绝采样微调（RFT），它使LLM能够学习那些成功欺骗多模态系统的模式。然而，简单的自训练可能导致LLM陷入单一模式，生成类似的欺骗性文本。这就像学生只会一种解题方法，虽然这种方法对某些问题很有效，但缺乏适应不同问题的能力。

为了促进多样性，研究团队引入了一种基于吉布斯采样的选择过程。这个过程会迭代地选择那些不仅能成功欺骗系统，还能增加整体多样性的样本进行训练。这就像故意让学生学习各种不同的解题方法，而不仅仅是最常用的那几种。

这种多样性促进自训练方法在提高攻击成功率的同时，还保持了攻击的多样性，使评估更加全面和有意义。

五、研究结果与发现

研究团队在多个数据集上测试了他们的方法，包括COCO（图像）、MSRVTT和AudioCaps（音频），并与多个基线方法进行了比较。结果令人印象深刻。

首先，使用通用欺骗提示的零样本方法（即没有任何特殊训练的LLM）在所有模态上都取得了不错的表现，攻击成功率在6.88%到10.47%之间。这表明，即使是未经特殊训练的LLM，也能发现多模态系统的一些组合性弱点。

当增加生成样本数量（N=4）时，攻击成功率显著提高，达到19.19%到29.02%。这就像多次尝试解一道难题，成功的机会自然会增加。

然而，真正的突破来自于研究团队提出的自训练方法。单轮自训练将攻击成功率提高到了34.64%到47.35%，比零样本方法提高了约68%。这相当于从初学者快速进阶到了有经验的解题专家。

当引入大N蒸馏和多样性促进策略后，最终方法在所有模态上都取得了最好的表现，攻击成功率达到42.10%到52.87%，同时保持了较高的多样性。这就像一个全面发展的问题解决者，不仅成功率高，还能应对各种不同类型的问题。

研究团队还发现，他们的方法具有良好的迁移性。即使在一个多模态系统上训练出来的攻击策略，也能有效地攻击其他多模态系统。这表明不同的多模态系统可能存在类似的组合性弱点。

另一个有趣的发现是，虽然更大或专有的语言模型（如GPT-4o）可能在某些任务上表现更好，但在生成多样化的欺骗性文本方面，较小的模型（如Llama-3.1-8B）配合自训练策略可能更有效。这就像有时候一个灵活的中型团队可能比一个庞大但不够灵活的团队更有效率。

六、研究意义与未来展望

这项研究不仅揭示了当前多模态系统在组合性理解上的弱点，还提供了一个系统性的框架来测试和改进这些系统。就像医生需要全面了解病情才能提供有效治疗一样，了解AI系统的弱点是改进它们的第一步。

研究的意义主要体现在以下几个方面：

1. 评估工具：MAC提供了一个全面的基准，可以评估多模态系统的组合性理解能力，这对于开发更可靠的系统至关重要。

2. 跨模态评估：与之前的工作不同，MAC可以应用于图像、视频和音频等多种模态，提供了更广泛的评估视角。

3. 提升方法：研究团队提出的多样性促进自训练方法，为提高多模态系统的组合性理解能力提供了一条可行路径。

4. 基础研究价值：这项研究深入探讨了多模态系统如何理解和处理组合性关系，为更好地理解这些系统的工作机制提供了洞见。

当然，这项研究也有一些局限性。比如，它主要关注短文本描述，而对于长文本的组合性理解还需要进一步研究。此外，虽然MAC可以有效地发现多模态系统的弱点，但如何系统地修复这些弱点仍然是一个开放问题。

未来的研究方向可能包括：

1. 扩展到更多模态，如惯性测量单元（IMU）或触觉感应等。 2. 探索更复杂的组合性关系，如因果关系、时间顺序等。 3. 开发更有效的防御策略，使多模态系统能够抵抗这类组合性攻击。 4. 研究如何将组合性理解能力整合到多模态系统的训练过程中。

总的来说，这项研究为我们提供了一个新的视角来看待和改进多模态AI系统，使它们能够更好地理解和处理我们人类习以为常的组合性关系。随着这些系统在我们日常生活中的应用越来越广泛，提高它们的可靠性和准确性变得越来越重要。

就像建造一座坚固的房子需要了解并加固每一个可能的薄弱点一样，构建可靠的AI系统也需要我们全面了解并系统性地解决它们的弱点。首尔国立大学的这项研究，正是朝着这个方向迈出的重要一步。

来源：至顶网一点号

标签：模型模态 llm 首尔国立大学马里兰大学

本文地址：http://news.43b.com.cn/a/466337.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐