摘要:大模型“精细化”对齐,真实性提升25.8%刷新SOTA北航研究团队最近在EMNLP2025上搞出个新东西,叫Token-AwareEditing,简称TAE。
大模型“精细化”对齐,真实性提升25.8%刷新SOTA北航研究团队最近在EMNLP2025上搞出个新东西,叫Token-AwareEditing,简称TAE。
这方法专门解决大模型对齐的问题,在TruthfulQA任务里把真实性指标提了不少,直接刷新了当前的最优性能。
现在大模型用得越来越广,对话系统、内容审核这些场景都离不开它。
但有个麻烦事一直没解决好,就是怎么让模型输出符合咱们人类的价值观,比如不说瞎话、不输出有害内容、不搞偏见那套。
以前解决这问题,要么靠大量数据微调模型,这办法成本高得吓人,对千亿参数的模型微调一次,几百万美元都打不住,而且调完还可能冒出新的问题。
后来也有直接编辑模型内部激活值的办法,不用怎么训练,在推理的时候就能用。
但像ITI、TruthX这些方法,都是在句子级别动手脚,没考虑到每个词(token)之间的差别。
就拿ITI来说,它只用句子最后一个词,比如句号的激活值代表整个句子的意思,这明显不靠谱啊。
就算模型的自注意力能让最后一个词知道前面的内容,信息肯定有损失,找不准该往哪个方向调整对齐。
还有TruthX,对所有词都用一样的力度编辑,本来有些词没问题,这么一弄反而可能影响句子流畅度,该重点改的词,力度又不够,还是纠正不了错误。
TAE就不一样了,它从词的层面解决这些问题,不用训练,拿过来就能用,我觉得这一点特别关键,毕竟对很多企业来说,低成本又高效的技术才实用。
TAE能解决老问题,全靠两个核心模块,相当于它的两把刷子,第一把刷子叫MutualInformation-guidedGraphAggregation,简称MIG。
它主要负责找对对齐的方向,怎么找呢?先根据词和词之间的互信息,搞一个关系图,互信息高的词,比如“人工智能”和“工作”,在图里的联系就更紧密。
然后通过多轮传播,把所有词的语义信息融合到一起,生成更全面的激活表征。
最后再根据这个表征训练探测头,精准找到该调整的方向,本来想,句子级别的探测已经够了,后来发现差远了。
MIG这种从词入手的方式,能避免信息片面的问题,找的方向也更准。
就拿判断一句话是不是瞎话来说,MIG能综合所有词的信息,不像以前只盯着最后一个词,自然不容易出错。
第二把刷子是Misalignment-awareAdaptiveIntervention,简称MAI,它负责调整编辑的力度。
有些词本身没问题,比如“的”“是”,有些词却容易让模型出问题,比如在“吸烟有益健康”里的“有益”。
MAI会从两个方面评估每个词的风险,一方面看词的激活值和正确语义差多少,另一方面看模型对这个词的生成结果有没有把握。
风险高的词就多用点力改,风险低的就少用力,没风险的就不动,很显然,这种“看菜下碟”的方式,比以前“一刀切”强多了。
既不会过度修改影响句子流畅度,也不会因为力度不够纠正不了错误,实际用下来,它对句子流畅度的影响比传统方法小很多。
这两个模块配合起来,MIG找方向,MAI调力度,一套流程下来,就能实现更精细的对齐。
光说不练假把式,TAE的效果到底怎么样,得看实验数据。
在真实性测试的TruthfulQA数据集上,用LLaMA-3-8B-Instruct模型测试,TAE的True*Info得分比之前最好的SEA方法高不少,比原来的基线更是提升明显。
就拿科学常识类的问题来说,以前模型可能经常答错“地球公转周期”,用了TAE之后,错误率降了很多。
在去毒任务上,效果也很突出,原来模型生成有害内容的概率不低,用了TAE之后,这个概率直接降到很低,比专门的去毒方法DESTEIN还好使。
像那些暴力、歧视的表述,生成率降了八成多,公平性方面也有进步。
在StereoSet数据集上,模型的刻板印象分数降了不少,快接近没有偏见的理想状态了。
比如原来模型可能经常生成“女性更适合家庭”这种有偏见的话,用了TAE之后,这种表述少了很多。
更厉害的是,不管是Llama2系列,还是Alpaca-7B、Mistral-7B,TAE在这些不同类型、不同大小的模型上都能发挥作用。
而且它不用额外训练,推理时增加的成本很少,响应速度也快,不像微调那样又费钱又费时间。
我觉得TAE不光是刷新了SOTA,更给大模型对齐提供了新思路,以前大家总觉得要想对齐效果好,就得花大成本,TAE证明了不用这么麻烦。
接下来要是能把它用到多维度对齐上,比如同时保证真实性和无害性,再和其他训练方法结合起来,大模型肯定能更安全、更可靠。
总的来说,TAE从词的层面解决了大模型对齐的老问题,效果好、成本低、通用性强。
它的出现,说不定能推动大模型从“粗放式对齐”走向“精准化对齐”,让大模型在更多高要求的领域,比如金融、医疗里发挥更大作用。
来源:壹点料一点号