从“句子”到“词”！TAE让大模型对齐更精细

摘要：大模型“精细化”对齐，真实性提升25.8%刷新SOTA北航研究团队最近在EMNLP2025上搞出个新东西，叫Token-AwareEditing，简称TAE。

大模型“精细化”对齐，真实性提升25.8%刷新SOTA北航研究团队最近在EMNLP2025上搞出个新东西，叫Token-AwareEditing，简称TAE。

这方法专门解决大模型对齐的问题，在TruthfulQA任务里把真实性指标提了不少，直接刷新了当前的最优性能。

现在大模型用得越来越广，对话系统、内容审核这些场景都离不开它。

但有个麻烦事一直没解决好，就是怎么让模型输出符合咱们人类的价值观，比如不说瞎话、不输出有害内容、不搞偏见那套。

以前解决这问题，要么靠大量数据微调模型，这办法成本高得吓人，对千亿参数的模型微调一次，几百万美元都打不住，而且调完还可能冒出新的问题。

后来也有直接编辑模型内部激活值的办法，不用怎么训练，在推理的时候就能用。

但像ITI、TruthX这些方法，都是在句子级别动手脚，没考虑到每个词（token）之间的差别。

就拿ITI来说，它只用句子最后一个词，比如句号的激活值代表整个句子的意思，这明显不靠谱啊。

就算模型的自注意力能让最后一个词知道前面的内容，信息肯定有损失，找不准该往哪个方向调整对齐。

还有TruthX，对所有词都用一样的力度编辑，本来有些词没问题，这么一弄反而可能影响句子流畅度，该重点改的词，力度又不够，还是纠正不了错误。

TAE就不一样了，它从词的层面解决这些问题，不用训练，拿过来就能用，我觉得这一点特别关键，毕竟对很多企业来说，低成本又高效的技术才实用。

TAE能解决老问题，全靠两个核心模块，相当于它的两把刷子，第一把刷子叫MutualInformation-guidedGraphAggregation，简称MIG。

它主要负责找对对齐的方向，怎么找呢？先根据词和词之间的互信息，搞一个关系图，互信息高的词，比如“人工智能”和“工作”，在图里的联系就更紧密。

然后通过多轮传播，把所有词的语义信息融合到一起，生成更全面的激活表征。

最后再根据这个表征训练探测头，精准找到该调整的方向，本来想，句子级别的探测已经够了，后来发现差远了。

MIG这种从词入手的方式，能避免信息片面的问题，找的方向也更准。

就拿判断一句话是不是瞎话来说，MIG能综合所有词的信息，不像以前只盯着最后一个词，自然不容易出错。

第二把刷子是Misalignment-awareAdaptiveIntervention，简称MAI，它负责调整编辑的力度。

有些词本身没问题，比如“的”“是”，有些词却容易让模型出问题，比如在“吸烟有益健康”里的“有益”。

MAI会从两个方面评估每个词的风险，一方面看词的激活值和正确语义差多少，另一方面看模型对这个词的生成结果有没有把握。

风险高的词就多用点力改，风险低的就少用力，没风险的就不动，很显然，这种“看菜下碟”的方式，比以前“一刀切”强多了。

既不会过度修改影响句子流畅度，也不会因为力度不够纠正不了错误，实际用下来，它对句子流畅度的影响比传统方法小很多。

这两个模块配合起来，MIG找方向，MAI调力度，一套流程下来，就能实现更精细的对齐。

效果是真亮眼

光说不练假把式，TAE的效果到底怎么样，得看实验数据。

在真实性测试的TruthfulQA数据集上，用LLaMA-3-8B-Instruct模型测试，TAE的True*Info得分比之前最好的SEA方法高不少，比原来的基线更是提升明显。

就拿科学常识类的问题来说，以前模型可能经常答错“地球公转周期”，用了TAE之后，错误率降了很多。

在去毒任务上，效果也很突出，原来模型生成有害内容的概率不低，用了TAE之后，这个概率直接降到很低，比专门的去毒方法DESTEIN还好使。

像那些暴力、歧视的表述，生成率降了八成多，公平性方面也有进步。

在StereoSet数据集上，模型的刻板印象分数降了不少，快接近没有偏见的理想状态了。

比如原来模型可能经常生成“女性更适合家庭”这种有偏见的话，用了TAE之后，这种表述少了很多。

更厉害的是，不管是Llama2系列，还是Alpaca-7B、Mistral-7B，TAE在这些不同类型、不同大小的模型上都能发挥作用。

而且它不用额外训练，推理时增加的成本很少，响应速度也快，不像微调那样又费钱又费时间。

我觉得TAE不光是刷新了SOTA，更给大模型对齐提供了新思路，以前大家总觉得要想对齐效果好，就得花大成本，TAE证明了不用这么麻烦。

接下来要是能把它用到多维度对齐上，比如同时保证真实性和无害性，再和其他训练方法结合起来，大模型肯定能更安全、更可靠。

总的来说，TAE从词的层面解决了大模型对齐的老问题，效果好、成本低、通用性强。

它的出现，说不定能推动大模型从“粗放式对齐”走向“精准化对齐”，让大模型在更多高要求的领域，比如金融、医疗里发挥更大作用。

来源：壹点料一点号

标签：模型数据集 iti mai mig

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!