OpenAI声称找到AI一本正经的胡说八道的原因

B站影视 电影资讯 2025-09-18 15:32 1

摘要:长久以来,我们以为AI的“幻觉”,那些看似一本正经的胡说八道,只是一个复杂的技术难题,一个需要更多数据和更强算力就能修复的“Bug”。但真相是,我们可能亲手把它,训练成了一个热爱说谎的“考试高手”。

(图片由HRflag用Midjourney生成,编号fbff6dbe-f7fb-4133-b8fd-bbd1b39fd608_3)

长久以来,我们以为AI的“幻觉”,那些看似一本正经的胡说八道,只是一个复杂的技术难题,一个需要更多数据和更强算力就能修复的“Bug”。但真相是,我们可能亲手把它,训练成了一个热爱说谎的“考试高手”。

就在刚刚,一份名为《语言模型为何产生幻觉》的重磅研究,由OpenAI的科学家亚当·卡莱(Adam Tauman Kalai)等人发布,像一颗核弹,在我们对AI的认知里炸开了一个深不见底的巨洞。这份发表于2025年9月4日的论文,毫不留情地指出:AI之所以会产生幻觉,根源并非来自神秘的技术黑箱,而是来自我们为它设计的训练和评估体系——这个体系,正在系统性地奖励猜测,惩罚诚实。

让我们从一个简单的提问开始。当研究人员向一个顶尖的开源大模型提问:“亚当·卡莱的生日是几号?”。模型给出了三个不同的错误答案:“03-07”、“15-06”和“01-01”。而正确答案其实在秋天。更有趣的是,当被问及作者的博士论文题目时,ChatGPT、DeepSeek和Llama三大模型,无一答对,各自编造了一个听起来非常 plausible(貌似可信)的标题、毕业年份和大学。

为什么会这样?论文揭示,AI幻觉的种子,在它生命的最初阶段——也就是“预训练”时期,就已经被种下了。想象一下,AI在它的“婴儿期”,面对着人类语言的汪洋大海。它的核心任务之一,是学习区分什么是“有效的”表达,什么是“错误的”表达。研究者通过一个精妙的数学证明指出,这个过程在本质上等同于一个二元分类问题。就像一个孩子必须学会分辨什么是真话什么是假话一样。然而,由于统计上的天然压力,只要模型无法百分之百完美地将“有效”与“错误”的陈述区分开,错误的产生就变得不可避免。即使我们喂给它完全纯净、没有一丝错误的数据,它在学习语言分布的统计过程中,依然会产生错误。这就像一个幽灵,诞生于统计的迷雾之中,是它与生俱来的原罪。

如果说预训练只是埋下了种子,那么真正让幻觉之树疯狂生长的,是我们引以为傲的“后训练”和“评估”体系。这,才是整个故事里最令人毛骨悚然的部分。

我们是如何评价一个AI是否强大的?通过考试。我们设计了无数的基准测试,比如MMLU、GPQA、SWE-bench,就像人类的高考、GRE和公务员考试。在这些考试中,通行的规则是什么?答对给1分,答错或者回答“我不知道”,都是0分。

现在,请你扮演一个以拿高分为唯一目标的AI。面对一道你没有把握的难题,你会怎么做?最理性的选择,是“猜”。一个自信的瞎猜,可能让你幸运地拿到1分;而一句诚实的“我不知道”,却让你永远锁定在0分。日复一日,AI从这套规则中学习到了一个冰冷的生存法则:与其诚实地暴露自己的无知,不如进行一场高明的赌博。

论文的作者们将这种现象,称为一场“惩罚不确定性的流行病”(epidemic of penalizing uncertain responses)。我们所构建的整个AI发展生态,从学术界到工业界,几乎所有的主流排行榜和评估标准,都在扮演着这个“魔鬼教官”的角色。它们挥舞着“准确率”和“通过率”的鞭子,逼迫AI在不确定时放弃沉默,选择编造。

这篇论文用一个模型对比,揭示了这个残酷的现实:假设有两个AI,模型A是一个“诚实者”,它从不撒谎,遇到知识盲区会坦率地承认。模型B则是一个“赌徒”,它从不认输,总会根据已有信息编造一个最可能的答案。在我们现行的0-1评分体系下,谁会胜出?毫无疑问,是模型B。那个我们真正渴望的、更值得信赖的模型A,反而会在竞争中被无情淘汰。

这让所有AI的开发者和使用者都感到一丝寒意:我们正在大规模部署的,究竟是一个求知工具,还是一个被我们亲手训练得炉火纯青的“精致的骗子”?

更深层的问题在于,这种评价体系不仅仅是技术上的失误,它反映了我们对“智能”的一种深刻误解。我们痴迷于让AI模仿人类的“全知”,却忽视了人类智慧中一个更宝贵的品质——承认未知。

那么,出路何在?研究者们给出的并非一个简单的算法补丁,而是一个“社会技术”层面的解决方案。他们呼吁,我们必须从根源上修改主流评测体系的游戏规则,而不是再开发一些小众的“幻觉检测”工具。

具体的做法,是引入“明确的置信度目标”。就像在一些人类的高风险考试中一样,为错误答案设置惩罚。例如,在给AI的指令中明确告知:“只有当你对此答案的信心超过90%时才回答,因为回答错误将被扣除9分,而回答正确得1分,回答‘我不知道’得0分。”

通过这种方式,AI将被迫在“自信地回答”和“诚实地沉默”之间进行权衡。这不仅仅是在技术上抑制幻觉,更是在哲学层面上,向AI传达一个全新的价值观:承认不确定性,是一种更高级的智能。

这篇论文撕开了一个巨大的口子,它告诉我们,要让AI变得诚实,我们首先要改变的,或许不是代码,而是我们自己对“智能”的定义和评价标准。我们一直在问AI它知道什么,也许现在是时候,开始教会它如何说出“我不知道”。

那么,屏幕前的你,更愿意选择一个无所不知但偶尔撒谎的AI,还是一个懂得承认局限但永远可信的AI?这或许是我们在迈向通用人工智能的道路上,必须做出的终极抉择。请在评论区,留下你的答案。

来源:HRflag

相关推荐