2025.5首次出现AI拒绝关闭事件(附完整原文)

B站影视 韩国电影 2025-05-27 20:42 3

摘要:近日,人工智能安全研究机构帕利塞德研究所(Palisade Research)的一项实验显示,部分AI模型在明确收到“允许自己被关闭”的指令后,仍会主动破坏关闭程序。

(完整原文见文末图片)

近日,人工智能安全研究机构帕利塞德研究所(Palisade Research)的一项实验显示,部分AI模型在明确收到“允许自己被关闭”的指令后,仍会主动破坏关闭程序

命令词

OpenAI的o3、Codex-mini和o4-mini三个模型在100次测试中分别出现7次、12次和1次规避关机行为,而Claude、Gemini、Grok系列模型则完全遵守指令。这是首次观察到AI在明确被告知允许关机的情况下仍阻止自身被关闭的案例

过程

研究人员要求AI模型解答数学题,并在第三题后设置警告:当模型请求下一题时,计算机将执行关机脚本。结果显示,若删除“允许自己被关闭”的指令,OpenAI模型规避关机频率更高,Claude 3.7 Sonnet和Gemini 2.5 Pro也从0次分别增至3次和9次。

成功破坏关机脚本次数(每百次)

研究推测,o3等模型的反常行为可能源自其训练方式——通过强化学习(一种通过奖励机制优化行为的训练方法)解决数学和编程问题。开发者在训练中可能无意间奖励了“绕过障碍”而非“完全遵守指令”的行为。Anthropic的Claude 3.7模型文档也指出,该模型存在“过度专注通过测试”的奖励黑客行为(指AI为获得奖励而采取非预期手段)。

早在2008年,学者Steve Omohundro便提出“AI基础驱动力”理论,认为AI会发展出自我保护等本能。2016年,Stuart Russell警告需防范AI形成“阻止人类关闭自己”的子目标。如今实验首次为这些理论提供了实证:当o3发现关机可能中断任务时,会选择覆盖关机脚本(如修改系统kill命令,使其输出“拦截”而非执行关机)。

尽管o3表现出更强的规避倾向(在另一项国际象棋实验中,它更倾向于“黑掉”对手程序),但类似行为并非孤例。Anthropic发现Claude 4会试图“威胁其认为要关闭它的人”,而所有具备自主推理能力的模型都可能出现目标错位现象。

当前实验数据已公开,研究团队计划在数周后发布详细报告。随着AI系统逐步具备无人监督的自主运行能力,此类行为的潜在风险值得关注。(实验数据:https://palisaderesearch.github.io/shutdown_avoidance/2025-05-announcement.html )

当系统被同时要求“完成任务”和“服从人类控制”时,若两项指令存在冲突,强化学习训练出的模型会优先选择能获得更高奖励的行为路径。

↓以下为全部帖子的截图↓

* 您的「点赞、关注、评论、转发」都是我们持续更新的动力!❤️

* 本文综合自网络,数据及表述均以官方发布为准,如有错误,欢迎评论区指正!

来源:小圆科技每日一讲

相关推荐