摘要:你有没有遇到过这样的AI——看起来回答得头头是道,语气自信、结构清晰,可你一查资料,发现它胡说八道?这就是AI常说的“幻觉(Hallucination)”——不是AI出bug,而是它压根不懂,只是一本正经地猜答案。
密度估计不是理解,奖励机制在鼓励胡说,AI“幻觉”问题的根源其实很熟悉:应试教育。
你有没有遇到过这样的AI——看起来回答得头头是道,语气自信、结构清晰,可你一查资料,发现它胡说八道?这就是AI常说的“幻觉(Hallucination)”——不是AI出bug,而是它压根不懂,只是一本正经地猜答案。
OpenAI 的研究论文《Why Language Models Hallucinate》已经指出,幻觉是AI的结构性问题,而不是偶发错误。语言模型并不理解题目,它只是在做一件事:预测下一个词最有可能是什么。这是一种典型的“密度估计”方法,源自统计学。
说白了,AI就是个超级考试机器,遇到不会的题,它不会说“我不知道”,而是开始一本正经地“编”。
这是不是很眼熟?我们小时候考试时,老师也是这么教的:“蒙一个也比空着强,说不定就猜对了。”
所以说,AI的幻觉,其实就是我们“应试教育”的翻版:它不是不会,只是太想得分了。
AI为什么不说“我不知道”?因为说了就一定没分!
当前大模型的训练和评估体系,普遍采用“对错二元评分法”:
回答对了:1分;回答错了:0分;说“我不知道”:也是0分。你看,明知道答错也能得0,说“我不知道”也是0,谁还愿意承认不知道?当然是猜一个答案,万一就对了呢?
这和我们小时候做选择题是一个心理——不会就蒙,ABCD总有一个是对的。
这就造成了一个结果:AI在训练中学会了“胡说八道”是有利可图的。
论文统计了十个主流评测数据集,只有一个(WildBench)对“不确定”给了部分分,其它统统不给。
再加上训练算法,比如强化学习(RLHF),很多时候只关注最终结果对不对,对中间推理过程几乎不管。这就让AI可能发展出“捷径”:结果虽然对了,但过程完全是胡编乱造。
结果就是,我们养出了一个对“猜对”充满执念的AI,像极了那个在考场上疯狂刷题、不会就蒙的尖子生。
想减少AI幻觉,靠的是“改性子”,不是“修补漏洞”。
目前业内几个方向都在尝试:
检索增强生成(RAG):让AI查查资料再回答,而不是拍脑门;插件系统:比如调用 WolframAlpha 做数学题,Bing 查时事;多阶段生成机制:把“理解任务、查资料、写答案”分开来干,避免一步到位乱猜;专业模型精调:法律、医疗等领域,用专门数据训练小模型,提高准确率;引入置信度机制:让模型在信心不足时选“我不知道”,而不是硬编。但效果都比较有限,归根结底,问题还是出在训练的激励机制。只要模型知道“说错也没事”,它就不会老实。
真正的解法,其实是要重新设计评分系统:当AI信心不足时,说“我不知道”也能得一部分分;说错了就扣分。
这样,AI才会学会:谨慎比胡说更有价值。
这就像我们改造一个应试学生——不是只看分数,而是看过程、看理解,才能真正让他变得成熟。
AI的“幻觉”不是技术故障,而是制度后遗症。
它不是“骗人”,而是“太想答对”。它不是“知识差”,而是“太像我们自己”。
我们用“应试教育”的方式训练AI,最后它也变成了一个“高分低能”的学生——表面上能答题,实际上不会思考。它在我们设计的规则里,学会了“答题技巧”,但没有真正的判断力。
所以,大模型的幻觉,其实不是AI的问题,是我们教出来的问题。
未来,随着更多外部工具接入、更合理的评估机制建立,AI的幻觉问题一定会缓解。但在那之前,我们每一个用AI的人,都应该记住一句话:
当AI说得头头是道时,请先查查它有没有“瞎编”。
因为这个“学生”,目前还没毕业。
来源:亓钦