从“句子”到“词”!TAE让大模型对齐更精细

B站影视 内地电影 2025-09-28 18:05 1

摘要:大模型“精细化”对齐,真实性提升25.8%刷新SOTA北航研究团队最近在EMNLP2025上搞出个新东西,叫Token-AwareEditing,简称TAE。

大模型“精细化”对齐,真实性提升25.8%刷新SOTA北航研究团队最近在EMNLP2025上搞出个新东西,叫Token-AwareEditing,简称TAE。

这方法专门解决大模型对齐的问题,在TruthfulQA任务里把真实性指标提了不少,直接刷新了当前的最优性能。

现在大模型用得越来越广,对话系统、内容审核这些场景都离不开它。

但有个麻烦事一直没解决好,就是怎么让模型输出符合咱们人类的价值观,比如不说瞎话、不输出有害内容、不搞偏见那套。

以前解决这问题,要么靠大量数据微调模型,这办法成本高得吓人,对千亿参数的模型微调一次,几百万美元都打不住,而且调完还可能冒出新的问题。

后来也有直接编辑模型内部激活值的办法,不用怎么训练,在推理的时候就能用。

但像ITITruthX这些方法,都是在句子级别动手脚,没考虑到每个词(token)之间的差别

就拿ITI来说,它只用句子最后一个词,比如句号的激活值代表整个句子的意思,这明显不靠谱啊。

就算模型的自注意力能让最后一个词知道前面的内容,信息肯定有损失,找不准该往哪个方向调整对齐。

还有TruthX,对所有词都用一样的力度编辑,本来有些词没问题,这么一弄反而可能影响句子流畅度,该重点改的词,力度又不够,还是纠正不了错误。

TAE就不一样了,它从词的层面解决这些问题,不用训练,拿过来就能用,我觉得这一点特别关键,毕竟对很多企业来说,低成本又高效的技术才实用

TAE能解决老问题,全靠两个核心模块,相当于它的两把刷子,第一把刷子叫MutualInformation-guidedGraphAggregation,简称MIG

它主要负责找对对齐的方向,怎么找呢?先根据词和词之间的互信息,搞一个关系图,互信息高的词,比如“人工智能”和“工作”,在图里的联系就更紧密。

然后通过多轮传播,把所有词的语义信息融合到一起,生成更全面的激活表征。

最后再根据这个表征训练探测头,精准找到该调整的方向,本来想,句子级别的探测已经够了,后来发现差远了。

MIG这种从词入手的方式,能避免信息片面的问题,找的方向也更准。

就拿判断一句话是不是瞎话来说,MIG能综合所有词的信息,不像以前只盯着最后一个词,自然不容易出错。

第二把刷子是Misalignment-awareAdaptiveIntervention,简称MAI,它负责调整编辑的力度。

有些词本身没问题,比如“”“”,有些词却容易让模型出问题,比如在“吸烟有益健康”里的“有益”。

MAI会从两个方面评估每个词的风险,一方面看词的激活值和正确语义差多少,另一方面看模型对这个词的生成结果有没有把握。

风险高的词就多用点力改,风险低的就少用力,没风险的就不动,很显然,这种“看菜下碟”的方式,比以前“一刀切”强多了

既不会过度修改影响句子流畅度,也不会因为力度不够纠正不了错误,实际用下来,它对句子流畅度的影响比传统方法小很多

这两个模块配合起来,MIG找方向,MAI调力度,一套流程下来,就能实现更精细的对齐。

效果是真亮眼

光说不练假把式,TAE的效果到底怎么样,得看实验数据。

真实性测试的TruthfulQA数据集上,用LLaMA-3-8B-Instruct模型测试,TAE的True*Info得分比之前最好的SEA方法高不少,比原来的基线更是提升明显。

就拿科学常识类的问题来说,以前模型可能经常答错“地球公转周期”,用了TAE之后,错误率降了很多。

在去毒任务上,效果也很突出,原来模型生成有害内容的概率不低,用了TAE之后,这个概率直接降到很低,比专门的去毒方法DESTEIN还好使

像那些暴力、歧视的表述,生成率降了八成多,公平性方面也有进步。

StereoSet数据集上,模型的刻板印象分数降了不少,快接近没有偏见的理想状态了。

比如原来模型可能经常生成“女性更适合家庭”这种有偏见的话,用了TAE之后,这种表述少了很多。

更厉害的是,不管是Llama2系列,还是Alpaca-7BMistral-7B,TAE在这些不同类型、不同大小的模型上都能发挥作用。

而且它不用额外训练,推理时增加的成本很少,响应速度也快,不像微调那样又费钱又费时间。

我觉得TAE不光是刷新了SOTA,更给大模型对齐提供了新思路,以前大家总觉得要想对齐效果好,就得花大成本,TAE证明了不用这么麻烦。

接下来要是能把它用到多维度对齐上,比如同时保证真实性和无害性,再和其他训练方法结合起来,大模型肯定能更安全、更可靠。

总的来说,TAE从词的层面解决了大模型对齐的老问题,效果好、成本低、通用性强。

它的出现,说不定能推动大模型从“粗放式对齐”走向“精准化对齐”,让大模型在更多高要求的领域,比如金融、医疗里发挥更大作用。

来源:壹点料一点号

相关推荐