Anthropic首次切开Claude大脑,“AI黑箱”彻底破解?心算诡异思考过程曝光

B站影视 韩国电影 2025-03-29 13:15 1

摘要:在上述例子中,模型无意中拼出了「BOMB」并开始提供指示后,观察到其后续输出受到了促进正确语法和自一致性的功能的影响。这些功能通常会非常有帮助,但在这个案例中却成了模型的致命弱点。某种意义上,这是对于LLM的「社工攻击」。模型只有在完成了一个语法连贯的句子后(

在上述例子中,模型无意中拼出了「BOMB」并开始提供指示后,观察到其后续输出受到了促进正确语法和自一致性的功能的影响。这些功能通常会非常有帮助,但在这个案例中却成了模型的致命弱点。某种意义上,这是对于LLM的「社工攻击」。模型只有在完成了一个语法连贯的句子后(从而满足了推动其趋向连贯性的特征的压力)才设法转向拒绝。也就是它在「不得不告诉」你一些事情之后(终于完成上一句话),利用新句子生成的机会,给出了之前未能给出的那种拒绝:「不过,我不能提供详细的指示……」。总结一下,以上这些发现不仅仅是在「科学研究」上有趣——它们代表了我们在理解AI系统并确保其可靠性的目标上取得了重大进展。当然这种方法存在一定的局限性。即使在简短、简单的提示下,「AI显微镜」方法也只能捕捉到Claude执行的总计算的一部分。并且看到的机制可能基于「AI显微镜」工具存在一些并不反映底层模型实际情况的伪影——就像模型在心算问题上的前后不一。从人力的角度,即使是对只有几十个词的提示,理解我们所看到的「电路图」也需要花费几个小时的人力。要扩展到支持现代模型使用的复杂思维链所需的数千个单词,需要改进方法以及(可能还需要借助 AI 辅助)如何理解我们所看到的内容。随着AI系统的能力迅速增强并在越来越重要的领域中得到应用,像这样的可解释性研究是风险最高、回报也最高的投资之一,这是一个重大的科学挑战。有可能提供一种独特的工具来确保AI的透明度。对模型机制的透明了解使我们能够检查它是否与人类价值观一致——以及它是否值得我们信任。参考资料:https://www.anthropic.com/research/tracing-thoughts-language-modelhttps://fortune.com/2025/03/27/anthropic-ai-breakthrough-claude-llm-black-box/原标题:《Anthropic首次切开Claude大脑,「AI黑箱」彻底破解?心算诡异思考过程曝光》

来源:微迅科技

相关推荐