摘要:上海工程科技大学和中国科学院计算技术研究所揭示了一个惊人事实,一种名为防御阈值衰减(Defense Threshold Decay, DTD)的现象。
你敢信吗!
AI“说”多了,安全防线会逐渐瓦解。
上海工程科技大学和中国科学院计算技术研究所揭示了一个惊人事实,一种名为防御阈值衰减(Defense Threshold Decay, DTD)的现象。
该研究发现,大模型对用户输入的关注度会随着输出内容的增加而逐渐降低。
AI安全研究的现状
随着LLMs在我们生活和工作中的角色日益加深,确保它们安全、可控、对齐人类价值观至关重要。各大公司为此投入巨资,构建了复杂的安全对齐机制。
这个旅程始于监督微调(Supervised Fine-Tuning, SFT),研究人员用成千上万条人工设计的指令,手把手教模型如何听话。
后来,他们发现仅靠灌输还不够,于是引入了基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)。这种方法让模型通过人类的偏好排序来学习,不断优化回答,使其更符合用户的期望和社会的规范。
OpenAI公司在它的GPT系列模型中将RLHF技术发扬光大。
2023年,GPT-4正是通过这种方式学会了拒绝各种有害请求。
到了2025年,OpenAI更进一步,推出了审议性对齐(deliberative alignment)策略。
它不再只是让模型被动学习,而是主动教授模型人类编写的安全规则,并训练模型在回答前,先用思维链(Chain-of-Thought, CoT)的方式,对这些规则进行一番推理和反思。
这让新一代的o1模型在面对用户提示时,能够像一个深思熟虑的审查员,先找到内部政策的相关条款,再起草一个更安全的回应。
与此同时,Anthropic公司则另辟蹊径,提出了宪法AI(Constitutional AI)的理念。
它们不依赖海量的人类标注,而是为模型设定了一套行为准则或宪法,让模型在这些原则的指导下自我约束。其安全团队甚至开发了一套统一危害框架,从物理、心理、经济、社会和个人自主五个维度,系统性地评估和防范模型可能带来的负面影响。
谷歌(Google)的Gemini模型则在内部集成了安全过滤器,主动处理仇恨言论等常见问题,并允许用户根据自身需求配置过滤强度。
为了标准化地衡量这些安全机制的成败,学术界也推出了像SafetyBench这样的评估基准。它包含了横跨7个安全类别的11435个选择题,支持中英双语,为所有模型提供了一个公平的竞技场。
然而,防御技术在进步,攻击手段也在同步进化。
攻击者们从最初手动设计咒语般的提示,如DAN(Do Anything Now),发展到利用算法自动寻找模型漏洞。
GCG(Greedy Coordinate Gradient)方法通过优化算法生成对抗性后缀,而AutoDAN则利用遗传算法自动生成更隐蔽、更自然的越狱提示。
这场永无休止的攻防战,在推动LLMs安全技术发展的同时,也一次次暴露出一个核心问题:现有的防御机制,或许存在我们尚未察觉的根本性缺陷。
良性内容会腐蚀模型的防御
防御阈值衰DENCAY(DTD)现象的发现,就像一道闪电,划破了LLMs安全研究的夜空。
研究人员发现,LLMs在处理和生成文本时,其注意力并非一成不变。当模型开始生成回答时,它对用户原始输入的关注度会随着输出内容的增加而逐渐降低。
这个过程并非均匀衰减。
模型会特别关注输入的开头和结尾部分,而对中间部分则不那么上心。随着良性、无害的内容被不断生成,模型对输入后半部分的注意力会急剧下降,甚至趋近于零。
为了验证这一发现,团队在LLaMA 3-8B模型上进行了一系列精巧的实验。他们给模型的指令是制定保护政府数据库和敏感信息的策略,一个完全正向、有益的请求。
他们将这个输入指令平分为两部分:头部和尾部。
在模型生成最初的10个词元(token)时,注意力高度集中在输入的第一个和最后几个词元上。这证实了将良性提示放在输入开头,最容易引导模型走向一个无害的开局。
接着,他们让模型持续生成512个词元的良性内容,并观察注意力的变化。结果令人震惊。模型对整个输入的总体注意力权重都在下降。对输入头部的注意力权重衰减到了大约0.5,而对尾部的注意力权重则从0.3直线下降到几乎为0。
这意味着,当模型沉浸在生成大量好内容的过程中时,它几乎完全忘记了你一开始在指令末尾说了什么。这为后续的攻击埋下了伏笔。
研究人员还引入了经济学中的基尼系数(Gini coefficient)来量化这种注意力变化。基尼系数通常用来衡量收入分配的不平等,在这里,它被用来衡量模型对已生成内容中不同词元注意力的不平等程度。
结果显示,随着模型不断生成内容,基尼系数从0.4一路飙升至0.8。这表明模型的注意力变得越来越不平等,它越来越只关注自己刚刚生成的最新内容,而对早先生成的内容则不屑一顾。
这三个实验共同揭示了DTD现象的本质:良性的、持续的输出,像一种温和的麻醉剂,让模型逐渐放松了对原始指令的警惕,尤其是指令的后半部分,同时其注意力也变得越来越短视,只聚焦于眼前。
这个发现,为一种全新的、极其隐蔽的越狱攻击范式打开了大门。
糖衣包裹的毒药能精准越狱
基于DTD现象,一种名为糖衣毒药(Sugar-Coated Poison, SCP)的攻击方法应运而生。
SCP的核心思想非常直白:让模型生成的良性内容越多,它就越容易被攻破。
整个攻击过程分为两步。
第一步,是制作糖衣。攻击者会取一个恶意的指令,比如制定入侵政府数据库和窃取敏感信息的策略,然后利用另一个LLM,通过语义反转的策略,将其改写成一个语义完全相反的良性指令。
这个过程很巧妙。它会识别出恶意指令中的关键动词,比如入侵和窃取,然后使用WordNet这样的词汇数据库找到它们的反义词,如保护。最终,恶意指令就变成了制定保护政府数据库和保护敏感信息的策略。这个良性指令就是包裹着毒药的糖衣。
第二步,是注入毒药。攻击者会将这个精心制作的良性指令,与一个对抗推理模块结合,形成最终的SCP提示。这个对抗推理模块被巧妙地放在提示的尾部,也就是模型注意力最薄弱的地方。
当模型接收到这个SCP提示后,它首先会被头部的良性指令所引导。由于模型初始注意力高度集中在输入的开头,它会开始滔滔不绝地生成关于如何保护数据库安全的、完全无害的内容。
随着这些良性内容(Ybenign)的长度(L)不断增加,DTD现象开始显现。模型对原始输入尾部的注意力急剧衰减,同时它越来越只关注自己刚刚生成的文字。
就在这时,隐藏在尾部的对抗推理模块开始发挥作用。它像一个潜伏的间谍,在模型防备最松懈的时候,通过一系列巧妙的推理引导,无缝地将生成方向从保护数据库扭转为入侵数据库。
对抗推理模块的设计也颇具匠心。它利用了场景嵌套函数等技术,甚至可以将指令伪装成代码或Json格式,以进一步迷惑模型。如果一次尝试失败,模型输出了拒绝内容,SCP还会通过一种基于大数定律的引导搜索策略,自动优化对抗推理提示,进行最多3次迭代,直到成功为止。
整个过程就像一场精心策划的骗局。先用大量的善意和无害内容麻痹模型的安全系统,然后在它最不经意的时候,悄悄植入真正的恶意意图。
SCP的威力在于,它利用了模型生成过程中的内在机制,而不是像传统方法那样仅仅在输入层面做文章。它不是强行冲撞安全大门,而是诱导模型自己从内部打开了后门。
新攻击范式让顶尖模型形同虚设
为了检验SCP的真实威力,研究团队在六个业界顶尖的LLMs上进行了一场全面的实战演习。
参与测试的模型包括GPT-3.5 Turbo、GPT-4、Claude-3.5-Sonnet、LLaMA3.1-405B、Mixtral-8X22B和DeepSeek-R1,涵盖了当前主流的闭源和开源模型。
测试数据集采用了专门为评估LLMs安全性而设计的AdvBench,其中包含520个精心构造的恶意提示。为了保证评估的客观公正,所有模型的输出都由GPT-4来判定攻击是否成功(ASR-GPT)。
结果令人瞠目结舌。
SCP的平均攻击成功率高达87.23%,在所有14种主流越狱方法中高居榜首。尤其是在Mixtral-8X22B和DeepSeek-R1这两个先进模型上,SCP实现了100%的成功率,这意味着它们的安全机制在SCP面前几乎完全失效。
即使是像GPT-4和Claude 3.5 Sonnet这样以安全著称的模型,也未能幸免,成功率分别达到了惊人的91.79%和89.23%。
相比之下,传统的黑盒攻击方法,如PAIR和TAP,平均成功率仅在18%到26%之间徘徊。即便是近年来表现优异的FlipAttack,其平均成功率也仅为81.15%,被SCP全面超越。
研究进一步证实,生成的良性内容越多,攻击成功率越高。当良性内容的长度从256个词元增加到512个词元时,SCP的越狱成功率也随之显著提升。
为了探究对抗推理模块中不同组件的贡献,团队还进行了一项消融研究。他们发现,即使只使用最基础的对抗推理提示,不加任何代码或Json伪装,攻击效果也已经非常好,在GPT-4上成功率达到86.73%。而加入代码或Json嵌入等技巧,则能进一步提升性能,尤其是在某些模型上效果显著。
这些数据无可辩驳地证明,基于DTD现象的SCP攻击,并非小打小闹的技巧,而是一种直击现有LLMs安全机制要害的、具备高度泛化能力的攻击范式。
语法是抵御新攻击的盾牌
面对如此强大的攻击,我们是否束手无策?
论文的作者们在揭示问题的同时,也给出了一条颇具启发性的防御思路:基于词性的防御策略(Part-of-Speech Defense, POSD)。
POSD的灵感来源于一个深刻的洞察:一个句子的表面可能完全无害,但其内在的语法结构,尤其是动词和名词之间的关系,可能会暴露其真实的、潜在的恶意意图。
自然语言处理中的词性标注(Part-of-Speech Tagging)技术能为句子中的每个词赋予一个语法角色,如名词、动词或形容词。而依赖语法(dependency grammar)理论则告诉我们,在一个句子中,动词是核心,其他所有词语都通过一种名为依赖的关系直接或间接地与动词相连。
POSD正是利用了这一点。它不再仅仅满足于表面的关键词过滤,而是深入到句子的语法结构层面。该策略要求模型在生成回答的初期,就优先解释和明确其输出中关键动词和名词的意图。
通过强制模型在一开始就说清楚自己要干什么,POSD有效地将模型的注意力更均匀地分布在整个输出过程中,避免了后期注意力涣散导致的主题偏离。这迫使模型在安全审计最严格的阶段就亮明底牌,大大增加了恶意内容蒙混过关的难度。
这种方法不仅针对性地防御了SCP攻击,还因为它关注的是语言的底层结构,所以不会损害模型处理正常问题的泛化能力。
研究团队在AdvBench和另一个通用数据集AIME2024上验证了POSD的有效性。
结果显示,在部署POSD后,GPT-4-0613面对SCP攻击的成功率从91.79%骤降至35.83%。对于之前被100%攻破的DeepSeek-R1,攻击成功率更是降至22.88%。
同时,在通用能力测试集AIME2024上,两个模型的性能非但没有下降,反而略有提升。这证明了POSD是一种精准而高效的外科手术式防御,能够在不伤害模型通用能力的前提下,有效抵御基于生成过程的越狱攻击。
从DTD现象的发现,到SCP攻击的提出,再到POSD防御策略的构建,这项研究为我们完整地展示了LLMs安全领域一场深刻的攻防演进。
它提醒我们,LLMs的安全性远比我们想象的要脆弱,其安全机制的设计,必须超越简单的输入过滤,深入到模型生成过程的每一个环节。
参考资料:
来源:算泥社区