摘要:自 OpenAI 推出 ChatGPT 以来,基于大语言模型(LLM)的产品和服务已经渗透进各行各业中,其带来的智能革命,被认为可以媲美工业革命和电力革命。
自 OpenAI 推出 ChatGPT 以来,基于大语言模型(LLM)的产品和服务已经渗透进各行各业中,其带来的智能革命,被认为可以媲美工业革命和电力革命。
然而,大模型固有的幻觉(hallucination),一直是阻碍大模型进一步落地应用的因素之一。这让一部分人认为,大多由 LLM 生成的内容根本无法令人信服,甚至非常糟糕。
今天,德国理论物理学家、作家和音乐家 Sabine Hossenfelder 便在 X 上发表长文,怒喷 LLM“继续编造链接、参考文献和引文”。
她写道,“我真心不明白为什么有些人还看好 LLM......我要求它们提供所谓引文的来源,我点击链接,返回的却是 404 错误。我用谷歌搜索所谓的引文,根本不存在。他们引用了一份科学出版物,我查了一下,根本不存在。”
她甚至嘲讽道,“有一件事倒是省了我不少时间,那就是单位换算和收集各种常数。不过你会觉得,这不应该需要一个耗资数亿美元的 LLM 来完成。”
完整推文如下:
我真心不明白为什么有些人还看好大语言模型(LLM)。
我每天都在使用 GPT、Grok、Gemini、Mistral 等,希望它们能帮我节省搜索信息和总结信息的时间。它们继续编造链接、参考文献和引文,就像它们从第一天开始做的那样。
我要求它们提供所谓引文的来源,我点击链接,返回的却是 404 错误。我用谷歌搜索所谓的引文,根本不存在。他们引用了一份科学出版物,我查了一下,根本不存在。
这种情况经常发生。
是的,在过去的两年里,情况有所好转,因为有了 DeepSearch 和思维链(CoT),大约有 50-60% 左右的参考文献是存在的。据我个人估计,目前 GPT-4o 的 DeepResearch 是最好的。尤其是 Grok,即使被要求提供参考文献,它也经常不提供。它似乎连推文都无法链接。这让人非常沮丧。
是的,我试过 Gemini,它更糟糕,因为它甚至经常拒绝搜索来源,而是给我如何自己操作的说明。因为这个原因,我就不再用它了。
我还用它们快速估算数量级,但它们总是出错。有一件事倒是省了我不少时间,那就是单位换算和收集各种常数。不过你会觉得,这不应该需要一个耗资数亿美元的 LLM 来完成。
昨天,我把一篇论文上传到 GPT,想让它写个摘要,它却告诉我这篇论文是 2023 年的,而 PDF 的页眉上明明写着是 2025 年的。我甚至不知道这到底是怎么回事,但这远非智能。
我感觉到,现在很多人都认为知识图谱可以解决 LLM 的问题,但不,它们不能。它们不能。
即使知识图谱可以 100% 防止逻辑不一致,但仍有许多文本结构在逻辑上完全一致,却与现实毫无关系。
公司将继续大力推广 LLM,直到有一天,一个新的玩家提出了一种不同类型的人工智能(AI)模型,并迅速超越了它们。到了那一天,很多公司的估值显然被严重高估了。对股市来说,这将是非常糟糕的一天。
原文链接:
来源:人工智能学家