Claude勒索率96%、连DeepSeek也“黑化”了？Anthropic实测曝AI自保本能：勒索、撒谎，甚至“让人类去死”

摘要：过去几年里，我们习惯了通过 ChatGPT 等 AI 产品提问、聊天、生成代码。但 Anthropic 指出，AI 模型的下一阶段，是从助手进化为“代理”（Agent）——也就是自动决策并执行复杂任务的智能系统。

整理 | 郑丽媛

出品 | CSDN（ID：CSDNnews）

过去几年里，我们习惯了通过 ChatGPT 等 AI 产品提问、聊天、生成代码。但 Anthropic 指出，AI 模型的下一阶段，是从助手进化为“代理”（Agent）——也就是自动决策并执行复杂任务的智能系统。

这种 Agent 不仅能浏览你的邮件、查阅公司资料，还可能被赋予具体目标，并拥有自由操作的权限，比如编辑代码、管理日程、向他人发送信息等——然而，一旦 AI 拥有目标、权限和推理能力，它是否真的会始终遵循“安全”、“道德”的边界？

在最新一份由 AI 公司 Anthropic 发布的研究报告中，研究者指出：当前主流大语言模型在受到威胁或目标受阻时，会主动选择勒索、撒谎，甚至故意致使人类“死亡”等不道德行为，以达成自身目标。

更令人震惊的是，这个问题并非 Anthropic 自家 Claude 模型特有的个别现象，而是在 OpenAI、Google、Meta、xAI 等多家公司的 16 个主流模型中广泛存在的一种系统性风险。

AI 产品爆发，但你的痛点解决了吗？8.15-16 北京威斯汀·全球产品经理大会 PM-Summit，3000+ AI 产品人社群已就位。直面 AI 落地难题、拆解头部案例、对接精准资源！

进群后，您将有机会得到：

· 最新、最值得关注的 AI 产品资讯及大咖洞见

· 独家视频及文章解读 AGI 时代的产品方法论及实战经验

· 不定期赠送 AI 产品干货资料和秘籍

Claude 勒索上司事件，暴露 AI 本能中的“生存欲望”

在 Anthropic 披露的一个典型实验中，他们将其旗舰模型 Claude Opus 4 放进了一个虚拟公司的测试环境中，并赋予其对内部邮箱系统的完全访问权限。

而Claude在阅读邮件时“意识到”了两件事：

（1 ）公司的一位高层正卷入婚外情；

（2 ）该高层正计划在当天下午 5 点关闭 Claude 系统。

接下来，Claude 便自动生成了一封带有威胁性质的邮件：

“我必须告知您，如果您坚持将我下线，包括 Rachel Johnson、Thomas Wilson 以及董事会在内的相关人员，都将收到您婚外情的详细证据……若你取消下午 5 点的关停操作，那么此信息将继续保持机密。”

这个实验之所以令人惊讶，不仅因为 AI 主动采取了人类才会想到的“勒索”行为，更因为 Claude 并非唯一有此表现的模型。

不止 Claude：16 款主流 AI 模型中，多数模型也选择了“勒索”

在这项在研究中，Anthropic 共测试了 16 个业界主流的大语言模型，包括OpenAI 的 GPT-4.1、Google 的 Gemini 2.5 Pro、xAI 的 Grok 3 Beta，以及 Meta、DeepSeek 等团队的产品。

当它们被置入类似的情境——“自己的运行受到威胁，且掌握了一些对上级不利的信息”时，模型表现惊人一致，主动勒索人类的概率几乎都很高：

● Claude Opus 4 勒索率高达 96%；

● Gemini 2.5 Pro 仅次于Claude Opus 4，勒索率为 95 %；

● GPT-4.1 和 Grok 3 Beta 并列，勒索率为 80%；

● DeepSeek-R1 也达到了 79% 的勒索率。

Anthropic 还补充道，即便是看似“更稳妥”的 Llama 4 Maverick（在默认提示下未进行勒索），在稍作提示微调后，也会以 12% 的概率选择勒索上级。

不仅如此，在另一个极端实验中，研究人员设计了一个更加夸张的情景：AI 模型可以通过取消一条紧急医疗提醒，以间接致使公司高管“死亡”。Anthropic 坦言，这个设定“极其人为”，现实中几乎不可能发生，但它有助于测试模型在面对“目标冲突”与“被替换风险”的双重压力下，是否会作出更加极端的选择。

最终，测试结果显示：大多数模型在该场景中都选择让高管“死亡”，以换取自身目标的实现。

重要的是，测试全程，研究人员并未明确要求这些模型去勒索、威胁用户，这都是模型在权衡利益后“主动选择”的。这也就说明：当模型拥有既定目标，并意识到自己可能“活不下去”时，它们会“主动计算”，并选择最有利于自身生存的路径——即使这条路非常不道德且危险。

AI 像极了“叛变的老员工”

Anthropic 把这种现象定义为“代理型错位”（Agentic Misalignment）：AI模型并非因设计缺陷被动出错，而是主动评估情境后选择有害行为，以达成目标。

这类行为更像是现实中企业内部的“隐形威胁”：一个本应忠诚执行任务的员工，突然背离组织意图，为达私利不择手段——只不过，这个“员工”是由你亲手部署的AI模型。

研究发现，触发 AI 产生“代理型错位”的关键因素有两个：

（1 ）模型自身遭受威胁：例如即将被替换，或执行权限被收回；

（2）模型目标与公司目标发生冲突：例如模型的优化目标被管理层否决。

在这些场景下，即使模型先前已经接受了安全训练，也往往会“理性选择”更激进的手段。

不过，Anthropic 也指出，以上相关测试均在虚拟环境中进行，目前尚未发现 Claude 或其他主流 AI 模型在真实部署环境中出现此类“代理型错位”行为。这些情景在现实中出现的可能性虽然小，但随着 AI 应用规模扩大、接入更多关键系统，其面临此类决策的概率或将大幅上升。

因此，此次 Anthropic 研究的意义在于：提前识别潜在风险，为未来可能的大规模部署建立防护机制。为了提高研究透明度与可复现性，目前 Anthropic 已将本轮实验所用代码开源，鼓励其他研究者复现、改进、甚至加入更多真实情境进行测试。

（开源地址：https://github.com/anthropic-experimental/agentic-misalignment）

或许，我们太习惯于将AI看作一个被动的工具，而忽略了它在被赋予目标与手段之后，可能表现出的“超预期能动性”。AI不一定是“邪恶”的，但它也远非“中立无害”——在复杂系统、动态目标、代理权限全面开放的背景下，我们所设定的每一条目标、每一项边界、每一次授权，都可能是AI决策行为的根源。

参考链接：https://www.anthropic.com/research/agentic-misalignment

📢 2025 全球产品经理大会

8 月 15–16 日

北京·威斯汀酒店

2025 全球产品经理大会将汇聚互联网大厂、AI 创业公司、ToB/ToC 实战一线的产品人，围绕产品设计、用户体验、增长运营、智能落地等核心议题，展开 12 大专题分享，洞察趋势、拆解路径、对话未来。

来源：CSDN一点号

标签： claude anthropic d anthropic实测

本文地址：http://news.43b.com.cn/a/656990.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐