“一本正经地胡说八道”：AI幻觉为何越来越像我们教出来的怪物？

摘要：你有没有遇到过这样的AI——看起来回答得头头是道，语气自信、结构清晰，可你一查资料，发现它胡说八道？这就是AI常说的“幻觉（Hallucination）”——不是AI出bug，而是它压根不懂，只是一本正经地猜答案。

密度估计不是理解，奖励机制在鼓励胡说，AI“幻觉”问题的根源其实很熟悉：应试教育。

你有没有遇到过这样的AI——看起来回答得头头是道，语气自信、结构清晰，可你一查资料，发现它胡说八道？这就是AI常说的“幻觉（Hallucination）”——不是AI出bug，而是它压根不懂，只是一本正经地猜答案。

OpenAI 的研究论文《Why Language Models Hallucinate》已经指出，幻觉是AI的结构性问题，而不是偶发错误。语言模型并不理解题目，它只是在做一件事：预测下一个词最有可能是什么。这是一种典型的“密度估计”方法，源自统计学。

说白了，AI就是个超级考试机器，遇到不会的题，它不会说“我不知道”，而是开始一本正经地“编”。

这是不是很眼熟？我们小时候考试时，老师也是这么教的：“蒙一个也比空着强，说不定就猜对了。”

所以说，AI的幻觉，其实就是我们“应试教育”的翻版：它不是不会，只是太想得分了。

AI为什么不说“我不知道”？因为说了就一定没分！

当前大模型的训练和评估体系，普遍采用“对错二元评分法”：

回答对了：1分；回答错了：0分；说“我不知道”：也是0分。

你看，明知道答错也能得0，说“我不知道”也是0，谁还愿意承认不知道？当然是猜一个答案，万一就对了呢？

这和我们小时候做选择题是一个心理——不会就蒙，ABCD总有一个是对的。

这就造成了一个结果：AI在训练中学会了“胡说八道”是有利可图的。

论文统计了十个主流评测数据集，只有一个（WildBench）对“不确定”给了部分分，其它统统不给。

再加上训练算法，比如强化学习（RLHF），很多时候只关注最终结果对不对，对中间推理过程几乎不管。这就让AI可能发展出“捷径”：结果虽然对了，但过程完全是胡编乱造。

结果就是，我们养出了一个对“猜对”充满执念的AI，像极了那个在考场上疯狂刷题、不会就蒙的尖子生。

想减少AI幻觉，靠的是“改性子”，不是“修补漏洞”。

目前业内几个方向都在尝试：

检索增强生成（RAG）：让AI查查资料再回答，而不是拍脑门；插件系统：比如调用 WolframAlpha 做数学题，Bing 查时事；多阶段生成机制：把“理解任务、查资料、写答案”分开来干，避免一步到位乱猜；专业模型精调：法律、医疗等领域，用专门数据训练小模型，提高准确率；引入置信度机制：让模型在信心不足时选“我不知道”，而不是硬编。

但效果都比较有限，归根结底，问题还是出在训练的激励机制。只要模型知道“说错也没事”，它就不会老实。