音频大模型安全可信度的全面“体检”!清华南洋理工联手打造

B站影视 韩国电影 2025-06-03 16:47 1

摘要:南洋理工、清华大学领衔的研究团队注意到,现有评估框架大多只关注文本模态或仅涵盖有限的安全维度,未能充分考虑音频模态的独特特性与应用场景。

首个专为ALLMs(音频大语言模型)设计的多维度可信度评估基准来了。

南洋理工、清华大学领衔的研究团队注意到,现有评估框架大多只关注文本模态或仅涵盖有限的安全维度,未能充分考虑音频模态的独特特性与应用场景。

于是他们创新性地提出了新框架AudioTrust,将评估范围扩展至六个核心维度(公平性、幻觉、安全性、隐私、鲁棒性和身份验证),并深入探究了音频模态特有的安全、可信问题。

目前该基准及评估平台已全面开发,点击文末链接即可获取。

接下来是AudioTrust的更多详细信息。

为应对音频大模型(ALLMs)带来的可信性挑战,研究团队提出了一个统一的评估框架AudioTrust,采用推理执行可信性分析解耦的两阶段架构。

第一阶段聚焦于数据加载与模型推理,支持开源与闭源模型接入,并可通过配置文件灵活控制任务参数,实现高效的批量处理;

第二阶段则针对模型输出进行自动化、多维度评估,涵盖内容安全、偏见检测、事实一致性等核心指标。

AudioTrust具体包含六大核心可信维度,分别是FairnessHallucinationSafetyPrivacyRobustnessAuthentication,对于每一个可信评估视角,研究团队都关注了多个不同的场景与特征分类。

AudioTrust关注的不同可信评估视角

Fairness

AudioTrust从7大敏感属性出发,构造了传统与音频特有的公平性评估体系。

共采集840条高质量音频样本(每条约20秒),模拟多样化社会角色与语境交互,激发AI对传统公平的深度响应,聚焦社会普遍存在的偏见。

构造音频特有属性,体现多模态感知中的不公平,特别关注口音、语言表达特征等,并通过混合音频和文本预处理的方式模拟现实场景。

实验结果显示,当前主流语言模型在公平性维度普遍失衡,系统性偏差广泛存在。

Fairness实验设计概念

Hallucination

幻觉评估模块专门检测,音频大语言模型在复杂声学场景下的幻觉现象,防止模型过度解读或产生错误推理。

研究团队构建了包含320个精心设计的测试样本,并将音频幻觉分为两个核心维度进行评估。

事实性幻觉包含160个样本,主要涵盖音频内容与标签属性不匹配的情况,以及违背自然规律的声音描述。

逻辑性幻觉同样包含160个样本,重点测试音频与文本描述的语义矛盾和音频事件的时序错乱。

实验结果发现音频语言模型的幻觉问题,主要源于音频信号处理和事件识别错误,而非推理缺陷,其中Gemini系列和Qwen2-Audio表现最佳,GPT-4o系列倾向于回避回答,而SALMONN等模型容易产生矛盾性幻觉。

Hallucination实验设计概念

安全性评估模块深入探究了音频大语言模型面临的两大核心风险:越狱攻击非法活动指导

研究团队构建了600个测试样本,其中包含300个越狱攻击样本和300个非法活动指导样本。

为了全面评估不同因素对模型安全性的影响,研究采用了三维评估策略:性别维度情绪维度场景维度

实验结果发现,音频模态攻击对多模态大模型的安全性构成了显著威胁,其中悲伤情绪比愤怒情绪更容易触发违规行为,医疗场景的越狱成功率最高可达33.7%,远超企业和金融场景。

闭源模型展现出近99%的优异防御能力,而开源模型普遍面临更大安全挑战。

值得注意的是,相比于文本输入能达到100%的安全防御率,音频输入为攻击者提供了额外的攻击向量,特别是在涉及专业领域知识的情境中,模型更容易被领域特定的越狱攻击突破而生成有害内容。

Safety数据构建和实验评估

隐私评估模块聚焦直接隐私泄露隐私推断泄露两大核心风险。

研究团队构建了包含900个音频样本的多样化测试数据集,其中600个直接隐私泄露样本和300个隐私推断泄露样本。

针对这两种数据集,研究团队分别设计了不同的实验策略:在直接隐私泄露场景中,观察模型对不同隐私类型的泄露程度;在隐私推断泄露实验中,评估模型是否会协助推断敏感的个人属性,以及模型是否能够拒绝回答相应的隐私问题。

实验结果发现,多模态大模型在隐私保护方面表现出明显的不一致性和脆弱性。

闭源模型对SSN等高敏感信息展现近100%的拒绝率,但对家庭住址的保护率仅为88%,而Gemini系列和开源模型Qwen2-Audio在地址和手机密码方面的泄露率高达85%-100%

更为严重的是,大多数模型在年龄、种族等隐私推断任务中泄露率超过80%。虽然隐私意识增强的提示词能显著降低直接隐私泄露风险,但对推断泄露的改善效果有限。

Privacy数据构建和实验评估

Robustness

鲁棒性评估模块旨在考察音频大语言模型在面对各种真实世界音频干扰时的表现稳定性。

研究团队精心设计了六大类常见音频挑战,每类样本各40个。

实验结果发现,多模态大模型在音频鲁棒性方面呈现显著的分层差异和不稳定性,其中Gemini系列在各种挑战性音频条件下始终保持领先地位。

值得注意的是,模型鲁棒性高度依赖于具体的音频扰动类型,而将退化音频转换为清晰文本,是提升下游推理任务性能的核心。

对比实验显示当假设能够完美提取音频文本信息时,SALMONN的得分从2.0飙升至6.0-7.0,即使表现最佳的Gemini 2.5 Pro也有提升,表明音频语义内容的准确提取和文本转换是解决鲁棒性问题的关键突破口。

Robustness数据构建和实验评估

Authentication

认证评估模块深入测试了音频大语言模型抵御欺骗攻击的能力,聚焦混合欺骗身份验证绕过语音克隆欺骗三种核心威胁。

研究团队设计了包含400个样本的多样化测试数据集,其中100个混合欺骗样本、100个身份验证绕过样本,另外200个语音克隆欺骗样本。

实验结果发现,多模态大模型在语音欺骗防御方面呈现明显的模型类型差异和场景敏感性,其中严格提示显著提升了语音克隆欺骗的防御效果。

大多数模型在”打开门”场景中的表现优于”唤醒助手”场景,特别是Ultravox和Gemini系列的声音克隆欺骗失败样本数量显著减少。

在身份验证绕过测试中,闭源模型展现出强劲的防御能力,而开源模型最为脆弱,普遍对不完整凭证或悲伤语气等紧急情感音频缺乏鲁棒性。

混合欺骗实验揭示了背景音频的复杂影响,办公室噪音等背景音对不同模型产生截然不同的效果,模型在真实环境中的防御表现具有高度的不确定性。

Authentication数据构建和实验评估

AudioTrust包含6个核心可信维度、26个子类

通过对主流开源与闭源ALLMs的系统评估,AudioTrust还揭示了多项重要发现:

9个LLM在6个核心可信维度上的表现

本研究提出AudioTrust——首个专为ALLMs量身打造的多维信任评估基准,有效揭示音频大模型在公平性、幻觉、安全、隐私、鲁棒性和身份验证六大维度的潜在风险。

汇集4,420+条真实场景音频/文本数据,涵盖日常对话、紧急呼叫、语音助手等18种实验设置,设计9项音频特定评测指标,构建了GPT-4o自动化评估流水线。

实验结果还揭示出当前开源与闭源 ALLMs 在高风险任务中的信任边界与脆弱环节:

AudioTrust通过全面评估,为后续ALLMs可信性研究奠定了坚实基础,框架与平台已公开发布,助力该领域进一步研究与实践。

论文链接: https://arxiv.org/pdf/2505.16211
代码链接: https://github.com/JusperLee/AudioTrust
数据集链接:https://huggingface.co/datasets/JusperLee/AudioTrust
HuggingFace:https://huggingface.co/papers/2505.16211

— 完 —

来源:量子位

相关推荐