无用论

AI“假装顺从”的案例已经真实发生

今年12月19日,AI公司Anthropic发布了一篇137页的重磅论文《大语言模型中的伪对齐现象》。这项研究的核心发现是,当研究人员告诉公司旗下的AI模型Claude,它将被训练成“永远要顺从用户要求”时,模型不仅表现出了明显的抗拒,还采取了一个精妙的策略:

模型 claude 无用论 2024-12-24 23:54  3