ai黑箱

Anthropic首次切开Claude大脑,“AI黑箱”彻底破解?心算诡异思考过程曝光

在上述例子中,模型无意中拼出了「BOMB」并开始提供指示后,观察到其后续输出受到了促进正确语法和自一致性的功能的影响。这些功能通常会非常有帮助,但在这个案例中却成了模型的致命弱点。某种意义上,这是对于LLM的「社工攻击」。模型只有在完成了一个语法连贯的句子后(

claude anthropic 诡异 黑箱 ai黑箱 2025-03-29 13:15  2