摘要:这听起来很技术性,甚至可能可信,但完全是无稽之谈。然而,它却出现在科学论文、AI 回应甚至同行评审期刊中。 所以。。。 这个幽灵般的短语是如何成为我们集体知识的一部分的?
AI 在互联网庞大的期刊文章库中搜索,复制了一个错误,该错误已出现在数十篇研究论文中,现在一个研究团队已经找到了问题的根源。
这是每个人舌尖上的问题:“植物电子显微镜”到底是什么?事实证明,这个词是荒谬的。
这听起来很技术性,甚至可能可信,但完全是无稽之谈。然而,它却出现在科学论文、AI 回应甚至同行评审期刊中。 所以。。。 这个幽灵般的短语是如何成为我们集体知识的一部分的?
正如 Retraction Watch 在 2 月份煞费苦心地报道的那样,这个词可能是从 1959 年一篇关于细菌细胞壁的论文中的平行文本列中提取的。据一名调查人员称,人工智能似乎跳过了列,将两行不相关的文本读作一个连续的句子。
farkakte 文本是研究人员所说的数字化石的教科书式案例:一个保留在 AI 训练数据层中的错误,并在未来的输出中意外弹出。正如 The Conversation 中所指出的,一个 AI 研究人员团队追踪了“植物电子显微镜”的奇特案例,他们指出,数字化石“几乎不可能从我们的知识库中删除”。
正如该团队报告的那样,化石过程始于一个简单的错误。早在 1950 年代,两篇论文发表在《细菌学评论》上,后来被扫描和数字化。
这些文章中出现的列布局混淆了数字化软件,后者将一列中的“植物”一词与另一列中的“电子”一词混在一起。融合是一个所谓的“折磨短语”——一个肉眼隐藏的短语,但对于“读取”文本的软件和语言模型来说却很明显。
正如 Retraction Watch 所记录的那样,在生物学论文发表近 70 年后,“植物电子显微镜”开始出现在伊朗的研究论文中。
在那里,一个波斯语翻译错误可能有助于重新引入这个术语:“植物”和“扫描”这两个词在波斯文字中只差一个点——而扫描电子显微镜是一个非常真实的东西。这可能就是这些错误术语重新进入科学记录所需要的一切。
但是,根据在 The Conversation 中描述他们的发现的团队的说法,即使错误始于人工翻译,AI 也会在网络上复制它。研究人员用原始论文的摘录来提示 AI 模型,事实上,AI 模型可靠地完成了带有 BS 术语的短语,而不是科学上有效的短语。较旧的模型,例如 OpenAI 的 GPT-2 和 BERT,没有产生错误,这让研究人员可以指示模型训练数据何时发生污染。
“我们还发现,这个错误在后来的模型中仍然存在,包括 GPT-4o 和 Anthropic 的 Claude 3.5,”该组织在其帖子中写道。“这表明这个无意义的术语现在可能永久嵌入到 AI 知识库中。”
该小组确定 CommonCrawl 数据集(一个巨大的抓取网页存储库)可能是最终被 AI 模型采用的不幸术语的来源。但是,尽管找到错误的来源很棘手,但消除错误则更加困难。CommonCrawl 由 PB 级数据组成,这使得大型科技公司以外的研究人员难以大规模解决问题。此外,领先的 AI 公司以抵制共享其训练数据而闻名。
但人工智能公司只是问题的一部分——渴望期刊的出版商是另一头野兽。据 Retraction Watch 报道,出版巨头爱思唯尔 (Elsevier) 试图在最终发布更正之前证明“植物电子显微镜”的敏感性。
去年,《前沿》(Frontiers)杂志也遭遇了自己的挫败,它被迫撤回了一篇文章,该文章包含人工智能生成的老鼠生殖器和生物途径的荒谬图像。今年早些时候,哈佛大学肯尼迪学院错误信息评论(Misinformation Review)的一个研究小组强调了谷歌学术搜索上所谓“垃圾科学”的恶化问题,本质上是被引擎拖网捕捞的不科学的副渔获物。
AI 在整个科学领域都有真实的用例,但其笨拙的大规模部署充满了错误信息的危害,对研究人员和有科学倾向的公众来说都是如此。一旦数字化的错误遗迹嵌入互联网的化石记录中,最近的研究表明,它们就很难被压制。
来源:人工智能学家