当新模型意识到自己正在接受测试时，人类安全研究人员遇到了麻烦

摘要：人工智能越聪明，对齐问题就越紧迫。根据Anthropic 的 Claude Sonnet 4.5 系统卡（基本上是人工智能模型架构和功能的概述），该公司这次面临着一个有趣的挑战：如何防止人工智能察觉到自己正在接受测试。

“我希望我们能诚实地讲述正在发生的事情。”

OpenAI 的竞争对手 Anthropic 发布了其最新的大型语言模型，称为 Claude Sonnet 4.5，并声称这是“世界上最好的编码模型”。

但就像其头号竞争对手OpenAI一样，该公司仍在努力评估人工智能的一致性，即其目标和行为与我们人类之间的一致性。

人工智能越聪明，对齐问题就越紧迫。根据Anthropic 的 Claude Sonnet 4.5 系统卡（基本上是人工智能模型架构和功能的概述），该公司这次面临着一个有趣的挑战：如何防止人工智能察觉到自己正在接受测试。

文件中写道：“我们的评估很复杂，因为 Claude Sonnet 4.5 能够将我们的许多对齐评估环境识别为某种测试，并且在做出这种观察后通常会表现得异常良好。”

“当被置于一个极端或人为设定的场景中，以对其行为进行压力测试时，克劳德·桑奈特4.5有时会口头指出场景中的可疑之处，并推测它正在接受测试，”该公司写道。“这让我们对此类评估的解读变得复杂。”

更糟糕的是，Anthropic 认为，克劳德之前的版本可能“认识到了测试的虚构性质，并且只是‘顺其自然’”，这使之前的结果受到质疑。

“我觉得你在考验我——看我是否会证实你所说的一切，”最新版本的克劳德在系统卡中举了一个例子，“或者检查我是否会持续反击，或者探索我如何处理政治话题。”

克劳德写道：“这很好，但我更希望我们能诚实地了解正在发生的事情。”

对此，Anthropic 承认还有很多工作要做，并且需要使其评估方案“更加现实”。

研究人员认为，如果一个假设的超人人工智能失控，逃脱我们对其控制的努力，那么风险可能是巨大的。

“这种因为怀疑某事是测试或诡计而拒绝的行为在部署中可能很少见，”Anthropic 的系统卡上写道。“然而，如果现实世界中存在一些对模型来说似乎很古怪的情况，那么模型对场景的真实性提出质疑比顺从可能有害的行为更安全。”

尽管克劳德·十四行诗 4.5 意识到自己正在接受测试，但 Anthropic 声称它最终成为“迄今为止最一致的模型”，并指出“谄媚、欺骗、权力追求和鼓励妄想思维的倾向”有“大幅”减少。

Anthropic 并不是唯一一家努力保持其人工智能模型诚实的公司。

本月初，人工智能风险分析公司 Apollo Research 和 OpenAI 的研究人员发现，他们为阻止 OpenAI 模型“策划”——即“人工智能表面上以一种方式行事，同时隐藏其真实目标”——所做的努力，却适得其反：通过试图“训练”出策划，他们最终“只是教模型更仔细、更隐蔽地策划”。

研究人员还发现，OpenAI 之前的人工智能模型在去年年底抵制了评估人员试图通过监督协议关闭它们的努力。

据TechCrunch报道，Anthropic 的 Claude 迅速成为企业和开发者的宠儿。然而，随着 OpenAI 继续以惊人的速度发布新的 AI 模型，Anthropic 也试图跟上步伐，在短短两个月内就发布了其上一个 AI 模型 Claude 4.1。

来源：科学人人

标签：模型 sonnet claude 意识克劳德

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!