Anthropic首次切开Claude大脑,“AI黑箱”彻底破解?心算诡异思考过程曝光
在上述例子中,模型无意中拼出了「BOMB」并开始提供指示后,观察到其后续输出受到了促进正确语法和自一致性的功能的影响。这些功能通常会非常有帮助,但在这个案例中却成了模型的致命弱点。某种意义上,这是对于LLM的「社工攻击」。模型只有在完成了一个语法连贯的句子后(
在上述例子中,模型无意中拼出了「BOMB」并开始提供指示后,观察到其后续输出受到了促进正确语法和自一致性的功能的影响。这些功能通常会非常有帮助,但在这个案例中却成了模型的致命弱点。某种意义上,这是对于LLM的「社工攻击」。模型只有在完成了一个语法连贯的句子后(
AI的运作始终笼罩着一层神秘的「黑箱」迷雾。这种不透明让AI有时会「胡说八道」,甚至故意撒谎。Anthropic刚刚推出了一项突破性研究,用类似大脑扫描的技术,深入Claude 3.5 Haiku的「脑子」,揭开了它运行的一些秘密。