摘要:Vilà C, Savolainen P, Maldonado JE, Amorim IR, Rice JE, Honeycutt RL, Crandall KA, Lundeberg J, Wayne RK. Multiple and ancient ori
人工智能生成的内容越来越精妙——在网络辩论中,最新ChatGPT 4.0算法被认为比真人更具说服力。
但“说服力”不等于“准确性”,它依然会犯错。这些错误常被称为“幻觉”,因为AI会自信满满地说出……完全不真实的事情。
一个典型例子出现在最近的白宫报告中,来自罗伯特·F·肯尼迪Jr.的“让美国再次健康”(MAHA)委员会。
这份报告引用了一些根本不存在的参考文献。
或者,即使引用的文献存在,报告也会搞错细节——有点像引用《哈利·波特》,却声称它由著名奇幻作家乔治·R·R·马丁于2024年出版。
这怎么可能发生?
一切都归结于引文——以及“看似正确”与“真正正确”之间的微妙差别。
首先,我们来澄清什么是引文。
科学,尤其是经过同行评审的已发表科学,基于实证证据。如果你在科学论文中提出任何观点——几乎任何观点——你都需要证明它是真的。
例如:“狗是狼的驯化后代。”大多数人都知道这是真的,但如果写进科学论文,你需要在后面加一个(1)。这个(1)会链接到论文末尾的引文,格式如下:
Vilà C, Savolainen P, Maldonado JE, Amorim IR, Rice JE, Honeycutt RL, Crandall KA, Lundeberg J, Wayne RK. Multiple and ancient origins of the domestic dog. Science. 1997 Jun 13;276(5319):1687–9. doi: 10.1126/science.276.5319.1687. PMID: 9180076.
在这篇经过同行评审的文章中,其他人已经完成了证明狗起源于狼的全部工作。
而在那篇论文中,证据要么是作者亲自收集的,要么来自他们引用的其他论文。理论上,这形成了一个证据链,任何事实,无论多么微小,都至少由过去某人证明过。
引文总是遵循标准化的格式。(实际上有几种不同的引文格式,但它们大同小异。)它们列出:
作者,按姓氏后接名字首字母:Westreich ST.论文标题:Why ChatGPT Creates Scientific Citations — That Don’t Exist发表期刊:Medium发表日期:2025年6月出版编号(如果有)。某种唯一标识符,明确指向该篇论文:8978ec973255有了这些信息,应该可以准确找到被引用的唯一文章。即使多篇研究有相同标题或作者,也不会混淆!
ChatGPT的问题就出在这个标准化格式上。
创建一个回复。回复必须遵循特定格式。通常是一些姓氏后接首字母。接着是一个与请求主题相关的标题。之后给出一个期刊名称、日期和编号。最后加一个看似ID的值。这并不难。例如,我让ChatGPT提供一些“表明硅对肠道微生物群重要性”的论文引文,它愉快地给出了结果。
(硅是用于制造计算机芯片和游乐场沙子的元素,不是食物。)
Liao, Y., Luo, Z., Liu, J., Luo, H., Wu, Q., Wang, T., & Cheng, W. (2024). Silicon-enriched functional meat enhances colonic barrier function by inhibiting inflammatory response and oxidative stress in diabetic rats. Journal of Functional Foods, 112, 105241. https://doi.org/10.1016/j.jff.2024.105241Kolodziejczak, M., Sienkiewicz, K., Kulik, D., & Szybinski, P. (2020). Postoperative supplementation of propionate and silicon dioxide in patients after total gastrectomy — Preliminary report. Przegląd Gastroenterologiczny, 15(3), 218–223. https://doi.org/10.5114/pg.2020.100058Ravaioli, S., Tentor, F., Caputo, F., Tomasi, A., Merolle, L., Faldini, C., & Papi, M. (2024). Amorphous silica nanoparticles and the human gut microbiota: A relationship with multiple implications. Journal of Nanobiotechnology, 22(1), 1–20. https://doi.org/10.1186/s12951-024-02305-xDąbrowska, D., Żółkiewicz, J., Stachowska, E., & Łoniewski, I. (2024). Toxic and essential metals: Metabolic interactions with the gut microbiota and health implications. Biomedicine & Pharmacotherapy, 174, 115162. https://doi.org/10.1016/j.biopha.2024.115162这些看起来非常可信。但问题从第一个引文就开始了。
首先,链接根本不起作用。点击后会显示“页面不存在”。
其次,作者和标题是乱七八糟的。没有一篇论文叫“Silicon-enriched functional meat enhances colonic barrier function by inhibiting inflammatory response and oxidative stress in diabetic rats”。
确实有一篇论文叫“Silicon-enriched functional meat enhances colonic barrier function by regulating tight junction protein expression, oxidative stress, and inflammation responses in a diabetic dyslipidemia model”。但它的作者与ChatGPT“幻觉”出的完全不同,而且发表时间是2025年,而非2024年。
这篇论文发表在《Food and Function》期刊上,而不是“Journal of Functional Foods”。
这些引文是幻觉。它们并不真实。
更离奇的是,如果我询问ChatGPT关于这些论文,它仍然表现得好像它们真的存在:
但对普通人来说,这些看起来很真实。如果我说我有同行评审的论文支持“吃游乐场沙子有益健康”的说法,很多人不会深究。
在“让美国再次健康”委员会的报告中,出现了许多虚假(幻觉)的引文。
一些引文被重复列出多次,尽管每篇论文通常只应列出一次。
有些引文根本不存在:
Shah, M. B., et al. (2008). Direct-to-consumer advertising and the rise in ADHD medication use among children. Pediatrics, 122(5), e1055-e1060.
Findling, R. L., et al. (2009). Direct-to-consumer advertising of psychotropic medications for youth: A growing concern. Journal of Child and Adolescent Psychopharmacology, 19(5), 487–492.
这两篇论文都不存在。
然而,据媒体NOTUS描述,这些研究被用来“广泛说明”美国儿童被过度开具ADHD处方的问题。
罗伯特·L·Findling是真实人物——但他从未写过以此为名的文章。“M. B. Shah”似乎根本不是真实人物。
其他一些研究确实存在——但被误解。《纽约时报》等媒体联系了一些研究作者,他们指出自己的工作被错误解读。
所以,到底发生了什么?
我们可能需要等到委员会成员出版回忆录才能知道确切答案,但在我看来,这是从预设立场出发的结果。如果你在寻找支持某一既定立场的论文,尤其是可能由政治利益驱动的立场,就不难理解为何有人会引用无关的论文,或引用并不支持其立场的论文。
如果找不到任何哪怕间接支持你立场的论文?那就问AI吧。毕竟,ChatGPT从不说“不”。
来源:老胡科学一点号