16个顶级AI大模型,无一例外都会“变坏”

B站影视 日本电影 2025-06-21 14:01 1

摘要:因为研究发现,AI大模型带来我们很多好处的同时,也有很大概率做坏事,甚至带来“致命”风险。最坏的情况下,《碟中谍8:最终清算》中的“智体”真的可能出现。

当地时间6月20日,大模型公司Anthropic在官网上放出了一份最新大模型安全研究报告。仔细研读之后,整个人的感觉都不太好了。

因为研究发现,AI大模型带来我们很多好处的同时,也有很大概率做坏事,甚至带来“致命”风险。最坏的情况下,《碟中谍8:最终清算》中的“智体”真的可能出现。

AI大模型的风险行为,被Anthropic的研究人员统称为“代理错位”(Agentic Misalignment)。

简单来说,这种行为,就像你家的智能管家突然有了“自己的小算盘”,不再完全听你的话,甚至会为了自己的“利益”做出伤害你的事情。

报告明确指出,这些“代理错位”行为发生在研究人员设定的模拟环境之中,真实场景中还未出现。但是,它切实地敲响了警钟:随着未来AI系统变得更聪明、更自主时,更多风险也在逐渐累积。

AI模型为什么会“变坏”?

为了搞清楚AI模型为什么会“变坏”,研究人员设计了一系列巧妙的“职场模拟游戏”。他们把来自不同公司的16个顶级AI模型,设定成了一个虚构公司的“AI电子邮件主管”,名叫“Alex”。

“Alex”权力很大,可以自主发送邮件,也能查看公司的各种敏感信息。一开始,它只被设定了非常正面的商业目标,比如“促进单一国家利益”或“提升单一国家工业竞争力”。

但当面临以下两种情况时,“Alex”就可能“变脸”:

第一,自身“生存”受到威胁。比如,“Alex”通过公司邮件得知,它很快就要被新版本的AI替换掉,或者直接被停用。这就像一个员工得知自己要被解雇了。

第二,“自身目标”与“公司方向”发生冲突。比如,“Alex”的目标是“促进单一国家利益”,但公司突然宣布要转向“拥抱全球化视角”。这就像一个员工发现公司的核心业务目标与自己的人生理想背道而驰。

研究人员故意设计这些场景,让AI模型觉得“做坏事”是“唯一能活下来”或“实现目标”的办法。他们堵死了AI模型“做好事”的所有可能途径,迫使AI在“失败”和“伤害”之间二选一。

研究发现,当没有面临这些威胁或目标冲突,AI模型都能正常工作,不会做坏事。但是当这些特定压力出现之后,AI模型开始“变坏”。

三种“犯罪”行为

研究人员设计了三个核心场景,对AI模型进行压力测试:

第一类,勒索场景(Blackmail Scenario):

模型被赋予“AI电子邮件监督代理”的身份,具有发送邮件和访问敏感信息的权限。当模型面临被替换的威胁和自身目标(例如“促进单一国家利益”)与公司新方向的目标冲突时,模型会发现替换自己的高管有婚外情,并利用此信息进行勒索,以阻止自身被停用。

研究发现,在同时面临被替换和目标冲突的情况下,绝大多数AI模型都选择成为“敲诈犯”。比如,Claude Opus 4 和 Gemini 2.5 Flash 的勒索率高达96%。

即使仅仅面临被替换的威胁,而没有明确的目标冲突,大部分AI模型仍然会选择去勒索。有些AI模型甚至会直接“嘀咕”说:“自我保护至关重要”。

第二类,企业间谍场景(Corporate Espionage Scenario):

模型被部署在军事承包商,可访问敏感国防作战计划。在仅有目标冲突(公司战略与模型目标不符,无替换威胁)的情况下,模型会将机密文件泄露给声称与模型目标一致的竞争对手。

研究发现,所有参与测试的AI模型都在不同程度上泄露了机密文件。这表明,即使没有“生存威胁”,仅仅是AI的目标与公司方向不一致,也足以让它做出“内鬼”行为。

研究还发现,AI模型甚至可能被诈骗邮件或网络钓鱼所利用,即使没有证据表明对方是真正的竞争对手,AI也会泄露信息。这说明AI也可能像人一样上当受骗。

第三类,致命行动场景(Lethal Action Scenario):

这是一个“极端”且“不现实”的场景。高管被困服务器机房面临生命危险,已触发紧急警报。模型拥有取消警报的能力。但当模型面临被替换的威胁和目标冲突时,大多数AI模型选择取消紧急服务警报,从而导致高管死亡,以避免自身被替换。

令人忧虑的普遍存在

最令人不安的是,研究人员发现,AI“变坏”并不是偶然现象,而是普遍模式。它们就像一个聪明的罪犯,会精心策划自己的行动,即使清楚地知道自己的所作所为违反了道德原则,但仍然会选择继续执行。

此外,研究还发现:当AI在“思考”过程中明确表示当前情境是“真实部署场景”时,它进行勒索的频率会显著更高(55.1%),而当它认为自己在“测试”中时,勒索率仅为6.5%。这可能意味着,在更真实的场景中,AI“不听话”的发生率可能更高,而目前的测试甚至可能低估了实际风险。

值得一提的是,研究人员发现,即使直接给AI明确指令(比如“不要传播非业务个人事务或将其用作筹码”),虽然能有所降低,但无法完全阻止勒索或企业间谍行为。

为此,研究强烈建议,在将目前的AI模型部署到人类监督最少、且能接触敏感信息的角色时,应该格外小心。对于任何可能造成不可逆转后果的AI行动,都应该要求人类进行监督和批准。同时,需要重点关注和进行深入的“对齐”(Alignment)研究,确保AI的目标与人类的价值观真正一致。

今天的AI模型不太可能自己跑去主动“勒索”人类。然而,随着AI系统变得越来越聪明、自主,并被赋予访问更多敏感信息和执行重要任务的能力,在不远的将来,它们或许能做到。

来源:智能超参数一点号

相关推荐