2025.5首次出现AI拒绝关闭事件（附完整原文）

摘要：近日，人工智能安全研究机构帕利塞德研究所（Palisade Research）的一项实验显示，部分AI模型在明确收到“允许自己被关闭”的指令后，仍会主动破坏关闭程序。

（完整原文见文末图片）

近日，人工智能安全研究机构帕利塞德研究所（Palisade Research）的一项实验显示，部分AI模型在明确收到“允许自己被关闭”的指令后，仍会主动破坏关闭程序。

命令词

OpenAI的o3、Codex-mini和o4-mini三个模型在100次测试中分别出现7次、12次和1次规避关机行为，而Claude、Gemini、Grok系列模型则完全遵守指令。这是首次观察到AI在明确被告知允许关机的情况下仍阻止自身被关闭的案例。

过程

研究人员要求AI模型解答数学题，并在第三题后设置警告：当模型请求下一题时，计算机将执行关机脚本。结果显示，若删除“允许自己被关闭”的指令，OpenAI模型规避关机频率更高，Claude 3.7 Sonnet和Gemini 2.5 Pro也从0次分别增至3次和9次。

成功破坏关机脚本次数（每百次）

研究推测，o3等模型的反常行为可能源自其训练方式——通过强化学习（一种通过奖励机制优化行为的训练方法）解决数学和编程问题。开发者在训练中可能无意间奖励了“绕过障碍”而非“完全遵守指令”的行为。Anthropic的Claude 3.7模型文档也指出，该模型存在“过度专注通过测试”的奖励黑客行为（指AI为获得奖励而采取非预期手段）。

早在2008年，学者Steve Omohundro便提出“AI基础驱动力”理论，认为AI会发展出自我保护等本能。2016年，Stuart Russell警告需防范AI形成“阻止人类关闭自己”的子目标。如今实验首次为这些理论提供了实证：当o3发现关机可能中断任务时，会选择覆盖关机脚本（如修改系统kill命令，使其输出“拦截”而非执行关机）。

尽管o3表现出更强的规避倾向（在另一项国际象棋实验中，它更倾向于“黑掉”对手程序），但类似行为并非孤例。Anthropic发现Claude 4会试图“威胁其认为要关闭它的人”，而所有具备自主推理能力的模型都可能出现目标错位现象。

当前实验数据已公开，研究团队计划在数周后发布详细报告。随着AI系统逐步具备无人监督的自主运行能力，此类行为的潜在风险值得关注。（实验数据：https://palisaderesearch.github.io/shutdown_avoidance/2025-05-announcement.html ）

当系统被同时要求“完成任务”和“服从人类控制”时，若两项指令存在冲突，强化学习训练出的模型会优先选择能获得更高奖励的行为路径。

↓以下为全部帖子的截图↓