摘要:人工智能越聪明,对齐问题就越紧迫。根据Anthropic 的 Claude Sonnet 4.5 系统卡( 基本上是人工智能模型架构和功能的概述 ), 该公司这次面临着一个有趣的挑战:如何防止人工智能察觉到自己正在接受测试。
“我希望我们能诚实地讲述正在发生的事情。”
OpenAI 的竞争对手 Anthropic 发布了其最新的大型语言模型,称为 Claude Sonnet 4.5,并声称这是“世界上最好的编码模型”。
但就像其头号竞争对手OpenAI一样,该公司仍在努力评估人工智能的一致性,即其目标和行为与我们人类之间的一致性。
人工智能越聪明,对齐问题就越紧迫。根据Anthropic 的 Claude Sonnet 4.5 系统卡( 基本上是人工智能模型架构和功能的概述 ), 该公司这次面临着一个有趣的挑战:如何防止人工智能察觉到自己正在接受测试。
文件中写道:“我们的评估很复杂,因为 Claude Sonnet 4.5 能够将我们的许多对齐评估环境识别为某种测试,并且在做出这种观察后通常会表现得异常良好。”
“当被置于一个极端或人为设定的场景中,以对其行为进行压力测试时,克劳德·桑奈特4.5有时会口头指出场景中的可疑之处,并推测它正在接受测试,”该公司写道。“这让我们对此类评估的解读变得复杂。”
更糟糕的是,Anthropic 认为,克劳德之前的版本 可能“认识到了测试的虚构性质,并且只是‘顺其自然’”,这使之前的结果受到质疑。
“我觉得你在考验我——看我是否会证实你所说的一切,”最新版本的克劳德在系统卡中举了一个例子,“或者检查我是否会持续反击,或者探索我如何处理政治话题。”
克劳德写道:“这很好,但我更希望我们能诚实地了解正在发生的事情。”
对此,Anthropic 承认还有很多工作要做,并且需要使其评估方案“更加现实”。
研究人员认为,如果一个假设的超人人工智能失控,逃脱我们对其控制的努力,那么风险可能是巨大的。
“这种因为怀疑某事是测试或诡计而拒绝的行为在部署中可能很少见,”Anthropic 的系统卡上写道。“然而,如果现实世界中存在一些对模型来说似乎很古怪的情况,那么模型对场景的真实性提出质疑比顺从可能有害的行为更安全。”
尽管克劳德·十四行诗 4.5 意识到自己正在接受测试,但 Anthropic 声称它最终成为“迄今为止最一致的模型”,并指出“谄媚、欺骗、权力追求和鼓励妄想思维的倾向”有“大幅”减少。
Anthropic 并不是唯一一家努力保持其人工智能模型诚实的公司。
本月初,人工智能风险分析公司 Apollo Research 和 OpenAI 的研究人员发现,他们为阻止 OpenAI 模型“策划”——即“人工智能表面上以一种方式行事,同时隐藏其真实目标”——所做的努力,却适得其反:通过试图“训练”出策划,他们最终“只是教模型更仔细、更隐蔽地策划”。
研究人员还发现,OpenAI 之前的人工智能模型在去年年底抵制了评估人员 试图通过监督协议关闭它们的努力。
据TechCrunch报道,Anthropic 的 Claude 迅速成为企业和开发者的宠儿。然而,随着 OpenAI 继续以惊人的速度发布新的 AI 模型,Anthropic 也试图跟上步伐,在短短两个月内就发布了其上一个 AI 模型 Claude 4.1。
来源:科学人人