“一本正经地胡说八道”:AI幻觉为何越来越像我们教出来的怪物?

B站影视 电影资讯 2025-09-20 14:33 1

摘要:你有没有遇到过这样的AI——看起来回答得头头是道,语气自信、结构清晰,可你一查资料,发现它胡说八道?这就是AI常说的“幻觉(Hallucination)”——不是AI出bug,而是它压根不懂,只是一本正经地猜答案。

密度估计不是理解,奖励机制在鼓励胡说,AI“幻觉”问题的根源其实很熟悉:应试教育。

你有没有遇到过这样的AI——看起来回答得头头是道,语气自信、结构清晰,可你一查资料,发现它胡说八道?这就是AI常说的“幻觉(Hallucination)”——不是AI出bug,而是它压根不懂,只是一本正经地猜答案

OpenAI 的研究论文《Why Language Models Hallucinate》已经指出,幻觉是AI的结构性问题,而不是偶发错误。语言模型并不理解题目,它只是在做一件事:预测下一个词最有可能是什么。这是一种典型的“密度估计”方法,源自统计学。

说白了,AI就是个超级考试机器,遇到不会的题,它不会说“我不知道”,而是开始一本正经地“编”。

这是不是很眼熟?我们小时候考试时,老师也是这么教的:“蒙一个也比空着强,说不定就猜对了。”

所以说,AI的幻觉,其实就是我们“应试教育”的翻版:它不是不会,只是太想得分了。

AI为什么不说“我不知道”?因为说了就一定没分!

当前大模型的训练和评估体系,普遍采用“对错二元评分法”:

回答对了:1分;回答错了:0分;说“我不知道”:也是0分。

你看,明知道答错也能得0,说“我不知道”也是0,谁还愿意承认不知道?当然是猜一个答案,万一就对了呢?

这和我们小时候做选择题是一个心理——不会就蒙,ABCD总有一个是对的。

这就造成了一个结果:AI在训练中学会了“胡说八道”是有利可图的。

论文统计了十个主流评测数据集,只有一个(WildBench)对“不确定”给了部分分,其它统统不给。

再加上训练算法,比如强化学习(RLHF),很多时候只关注最终结果对不对,对中间推理过程几乎不管。这就让AI可能发展出“捷径”:结果虽然对了,但过程完全是胡编乱造。

结果就是,我们养出了一个对“猜对”充满执念的AI,像极了那个在考场上疯狂刷题、不会就蒙的尖子生。

想减少AI幻觉,靠的是“改性子”,不是“修补漏洞”。

目前业内几个方向都在尝试:

检索增强生成(RAG):让AI查查资料再回答,而不是拍脑门;插件系统:比如调用 WolframAlpha 做数学题,Bing 查时事;多阶段生成机制:把“理解任务、查资料、写答案”分开来干,避免一步到位乱猜;专业模型精调:法律、医疗等领域,用专门数据训练小模型,提高准确率;引入置信度机制:让模型在信心不足时选“我不知道”,而不是硬编。

但效果都比较有限,归根结底,问题还是出在训练的激励机制。只要模型知道“说错也没事”,它就不会老实。

真正的解法,其实是要重新设计评分系统:当AI信心不足时,说“我不知道”也能得一部分分;说错了就扣分。

这样,AI才会学会:谨慎比胡说更有价值。

这就像我们改造一个应试学生——不是只看分数,而是看过程、看理解,才能真正让他变得成熟。

AI的“幻觉”不是技术故障,而是制度后遗症。

它不是“骗人”,而是“太想答对”。它不是“知识差”,而是“太像我们自己”。

我们用“应试教育”的方式训练AI,最后它也变成了一个“高分低能”的学生——表面上能答题,实际上不会思考。它在我们设计的规则里,学会了“答题技巧”,但没有真正的判断力。

所以,大模型的幻觉,其实不是AI的问题,是我们教出来的问题

未来,随着更多外部工具接入、更合理的评估机制建立,AI的幻觉问题一定会缓解。但在那之前,我们每一个用AI的人,都应该记住一句话:

当AI说得头头是道时,请先查查它有没有“瞎编”。

因为这个“学生”,目前还没毕业。

来源:亓钦

相关推荐