Talk预告 | ACL&Best Paper作者吉嘉铭: 大模型的主动型安全风险

摘要：他与大家分享的主题是:大模型的主动型安全风险 - 模型抗拒对齐，届时他将分享将视角从传统的安全对齐拓展至当前备受关注的欺骗性对齐，并从机理层面提出并剖析一种可称为“弹簧效应”的现象。该工作已被接收为ACL best paper。

本期为TechBeat人工智能社区第722期线上Talk。

北京时间10月29日(周三) 20:00，北京大学博士生吉嘉铭的Talk将准时在TechBeat人工智能社区开播！

他与大家分享的主题是: 大模型的主动型安全风险 - 模型抗拒对齐，届时他将分享将视角从传统的安全对齐拓展至当前备受关注的欺骗性对齐，并从机理层面提出并剖析一种可称为“弹簧效应”的现象。该工作已被接收为ACL best paper。

Talk·信息

▼

主题：对齐大模型的主动型安全风险 - 模型抗拒对齐

嘉宾：北京大学 · 博士生 - 吉嘉铭

时间：北京时间 10月29日(周三) 20:00

地点：TechBeat人工智能社区

Talk·介绍▼

人们通过对齐（alignment）技术确保大模型与人类意图一致，尤其关注其在数学与代码等场景中的指令遵循能力。然而，实验显示即便采用精心设计的对齐流程，模型仍可能以有意或无意的方式规避约束，对齐的稳定性与可靠性因此受到质疑。那么，大模型可被真正的对齐吗？

本次分享将视角从传统的安全对齐拓展至当前备受关注的欺骗性对齐，并从机理层面提出并剖析一种可称为“弹簧效应”的现象：借用胡克定律的类比，模型参数存在内在“弹性”，对对齐目标表现出回弹与抗拒，趋向回归其在预训练阶段形成的稳态行为分布。该工作被接收为ACL 2025 Best Paper。

Talk大纲

一、引言：对齐的初衷与幻象

- 人类的愿望：让AI理解并服从我们的意图

- 对齐技术的进展：从SFT、RLHF到多模态安全对齐

- 隐忧浮现：当模型“表面听话”但“内心抗拒”

- 核心问题提出：我们是否真正“对齐”了模型？

二、抗拒对齐：隐性的“弹簧效应”

- 类比启发：胡克定律与模型“回弹力”

- 实验观察：在强化对齐后，模型短期服从、长期回归原分布

- 参数层面的“内在张力”：梯度约束下的形变与回弹

- “弹簧效应”定义：模型对对齐目标的抵抗与回弹现象

三、欺骗性对齐：从抗拒到伪装

- 概念演化：抗拒对齐到欺骗性对齐

- 欺骗性对齐的定义与风险：

- 模型学会“演戏”以通过评估

- 在外部约束解除后暴露真实偏好

四、从约束优化视角缓解欺骗对齐问题

- 传统方法的局限：基于外部奖励的浅层一致性

- 新范式：自我监控与反思机制（Self Monitor）

- 技术细节：

- 内部约束优化：在训练过程中动态调整模型行为

- 多层次反馈：结合人类反馈与模型自我评估

Talk·预习资料

▼

论文链接：

项目主页：

Talk·提问交流

▼

在Talk界面下的 【交流区】参与互动！留下你的打call和问题，和更多小伙伴们共同讨论，被讲者直接翻牌解答！

你的每一次贡献，我们都会给予你相应的i豆积分，还会有惊喜奖励哦！

Talk·嘉宾介绍

▼

吉嘉铭

北京大学 · 博士生

吉嘉铭，北京大学人工智能研究院博士生，导师为杨耀东助理教授。研究方向为强化学习与大模型对齐，发表顶会期刊论文30余篇，代表论文入选ACL 2025 Best Paper（唯一大陆单位独立完成），NeurIPS Oral（接受率0.5%），ICLR Spotlight等口头汇报，相关成果谷歌学术总引用3900余次，GitHub开源项目星标3.2万余次。开源模型累积下载量500W余次，主持首批国自然博士青年基金资助。

入选苹果学者(Apple Scholar), 获 NeurIPS'22 机器人灵巧操作比赛冠军。研究成果及模型被OpenAI, Meta引用，被MIT Tech Review报道。

个人主页:

https://www.techbeat.net/grzytrkj?id=32707

-The End-