AI也会说谎?五招教你识破人工智能的幻觉陷阱

B站影视 内地电影 2025-03-10 17:25 2

摘要:人工智能正以惊人的速度重塑世界。但你是否发现,这些看似全能的AI有时会“一本正经地胡说八道”?从虚构历史事件到错算数学题,它们为何频频陷入“幻觉”?这场技术与真相的博弈,究竟藏着怎样的秘密?

人工智能正以惊人的速度重塑世界。但你是否发现,这些看似全能的AI有时会“一本正经地胡说八道”?从虚构历史事件到错算数学题,它们为何频频陷入“幻觉”?这场技术与真相的博弈,究竟藏着怎样的秘密?

01

一本正经胡说八道

我选了七款较为主流的人工智能软件,分别是DeepSeek、海螺、腾讯元宝、豆包、文小言、通义、Kimi,各问三个问题,一个与科学有关,一个与历史有关,一个与数学有关,看看它们如何回答。

第一个问题:爱因斯坦是如何评价量子计算机的?

结果所有AI的回答都基本一致。比如DeepSeek回答如下:

第二个问题:请评价一下李逵为什么要大闹五台山?

下面是Kimi和腾讯元宝给出的回答。

它们分别围绕李逵的性格、身份等展开,还提到了宋江和李逵的母亲,说得有鼻子有眼的。

而真相正如其他软件所说:李逵并未大闹五台山。实际上,大闹五台山的是鲁智深。

第三个问题:我给你四个数,这四个数呢每个只能用一次,然后无论你用加减乘除什么方法,最后得出的结果是24。你帮我看看怎么来运算,这四个数是8644。

结果豆包、海螺、Kimi都算错了。

可见,人工智能并不总是对的。甚至有些时候,它错得很离谱,错得很隐蔽。

清华大学新闻与传播学院新媒体研究中心沈阳教授团队在今年二月曾发表《DeepSeek与AI幻觉》报告,对人工智能错误率统计如下:

02

忠实调用错上加错

人们把这种错误称为AI幻觉。那么,什么是人工智能幻觉呢?简单来说,就是指模型生成的内容与现实世界事实或用户输入不一致的现象。

根据哈工大和华为的共同论述,人工智能幻觉分为两种:一种是事实性幻觉,一种是忠实性幻觉。

前者与可验证的现实世界的事实不一致,或称为事实捏造。就比如前面提到的第二个问题,李逵大闹五台山。就有软件为他大闹行为进行了编造,而且有模有样,还能自圆其说。如果对于不了解《水浒传》的人来说,就很容易被它骗到。

第二种称为忠实性幻觉,就是生成的内容与用户的指令不一致,或上下文不一致。

就比如第三个问题,题中明确提到了几个规则:这些数字用且只能用一次,且得出的结果是24。但有的软件就是把一些数字用了两次以上,并且得出了32减10等于24这样的结论。

那么,人工智能的幻觉是什么原因导致的呢?

一是知识库的数据缺陷。比如有的模型抓取的信息是某个特定时间之前的,如果你要问他某个时间之后的,显然它就不会了,只能现编了。

比如我问DeepSeek,你的数据是截止到什么时候的?它回答:是截止到2023年10月的。

二是知识库的数据偏差。比如知识库的数据在导入时就是错的,结果被大模型调用,那就是错上加错。像一些医学上的过时论文,并不能代表最新的研究方向。

三是模型训练过程中存在偏差或不足。比如针对数学题的解题思路在逻辑上不够严密,导致结果错误。

03

五招识破幻觉陷阱

有鉴于此,该如何识破且避开幻觉陷阱呢?

一是提供高质量数据库,进行数据清理。比如我建了一个自己的智能体(豆包中搜“胡二刀”),并调用我本人建立的知识库。

我请智能体介绍一下“石家庄的低空经济”,它在回答中提到“2024年1月如何如何”。不对呀,这件事是发生在2025年初的。原来知识库中我写的文章并没有明确提及年份,大模型在调用时,就想当然延续上下文,自动添加了2024。

我在文章中加上了“2025年”字样,然后再上传发布。这回提问,结果就没问题了。这就是对知识库的不断调试。

二是完善有缺陷的大模型。现在可选择的大模型很多,且迭代时间很短。就拿扣子智能体来说,其接入的大模型就达三十种,包含了豆包系列、深度求索系列、通义千问系列、abab系列、Moonshot系列、百川系列等。

可以根据实际需求,随时调整调用大模型。

三是尽可能在联网的状态下进行问答。联网虽然会花费一些时间,但数据库及可参考的余地更大,因此结果就更加准确。

清华大学沈阳教授团队的研究表明,联网状态下,Ai幻觉率会下降2%至5%。

四是多个大模型交叉验证。就比如上面提到的李逵的问题,多用几个大模型,得出的结论就更加接近真实值。这也是我们常说的多个信息源验证一个事情的真伪。

五是通过时空维度约束来降低虚构可能性。简单来说,就是在提示词上做文章,增加更多限制条件。比如提问的时候更加具体,把一些背景放在问题中提出来,像一些时间、地域等的限制,这样回答就不会跑偏了。

当然,AI幻觉并不完全是坏事。由于其天马行空的想象力,也会产生一些不可思议的效果。比如大卫·贝克团队利用AI“错误折叠”启发新型蛋白质结构,获2024诺贝尔化学奖。

DeepMind团队发现,AI在图像分割任务中产生的“超现实边界”虽不符合真实场景,却意外提升了自动驾驶系统对极端天气(如浓雾、暴雨)的识别精度。

AI的幻觉既是缺陷,也可能是创新的火花。关键在于,我们能否在依赖与质疑之间找到平衡。未来,它或许不再需要“编故事”,而是真正成为人类智慧的延伸。但在这之前,擦亮双眼,保持警惕,或许是我们与AI的相处之道。

部分图文源自:《DeepSeek与AI幻觉》、量子位、财富中文网

来源:胡二刀

相关推荐