Nature:人工智能软件越来越多参与论文审阅,科学家对此感到担忧

B站影视 欧美电影 2025-03-27 11:27 1

摘要:今年 2 月,生态学家 Timothée Poisot 在阅读他提交的一份稿件的同行评审时大吃一惊。其中一份评审报告似乎是由人工智能 (AI) 撰写的,或者可能完全由人工智能撰写。它包含这样一句话:“这是您的评审意见的修订版,清晰度和结构都有所提高”,这强烈表

插图:Ibrahim Rayintakath

今年 2 月,生态学家 Timothée Poisot 在阅读他提交的一份稿件的同行评审时大吃一惊。其中一份评审报告似乎是由人工智能 (AI) 撰写的,或者可能完全由人工智能撰写。它包含这样一句话:“这是您的评审意见的修订版,清晰度和结构都有所提高”,这强烈表明该文本是由大型语言模型 (LLM) 生成的。

Poisot 还没有向期刊编辑透露他的怀疑;他要求不要在本文中透露涉事期刊的信息——该期刊禁止在同行评审中使用法学硕士学位。

但在一篇关于该事件的博客文章中,他强烈反对自动化同行评审。“我提交稿件进行评审,希望得到同行的评论。如果这个假设得不到满足,同行评审的整个社会契约就不复存在了,”在加拿大蒙特利尔大学工作的 Poisot 写道。

人工智能系统已经改变了同行评审——有时是在出版商的鼓励下,有时则违反了他们的规则。出版商和研究人员都在测试人工智能产品,以标记稿件文本、数据、代码和参考文献中的错误,引导审稿人获得更具建设性的反馈,并润色他们的文章。一些新网站甚至只需单击一下即可提供完整的人工智能评论。

但这些创新也带来了担忧。尽管如今的人工智能产品扮演的是助手的角色,但人工智能最终可能会主宰同行评审过程,而人类评审员的作用将被削弱或完全消失。一些爱好者认为同行评审的自动化是必然的——但许多研究人员,如 Poisot,以及期刊出版商,都认为这是一场灾难。

早在 ChatGPT 和其他基于法学硕士的 AI 工具出现之前,出版商就已经使用各种 AI 应用程序来简化同行评审流程,时间长达五年之久,包括检查统计数据、总结发现和简化同行评审员的选择等任务。但模仿流畅人类写作的法学硕士的出现改变了游戏规则。

在一项对近 5,000 名研究人员的调查中,约 19% 的人表示他们已经尝试使用法学硕士来“提高评审的速度和难度”。但这项由总部位于新泽西州霍博肯的出版商 Wiley 进行的调查并没有探讨使用法学硕士润色文章和依靠人工智能进行评审之间的平衡。

三个人工智能步骤,让同行评审更快、更智能

一项针对 2023 年和 2024 年提交给人工智能会议的论文的同行评审报告的研究1发现,其中 7% 至 17% 的报告中有迹象表明它们已被法学硕士“大幅修改” ——这意味着除了拼写检查或对文本进行微小更新之外的更改。

目前,许多资助者和出版商禁止基金或论文评审人员使用人工智能,理由是担心如果研究人员将材料上传到聊天机器人网站,机密信息就会泄露。但是,哥本哈根大学的 Sebastian Porsdam Mann 研究生成式人工智能在研究中的实用性和伦理性,他表示,如果研究人员在自己的电脑上托管离线法学硕士,那么数据就不会反馈到云端。

葡萄牙里斯本天主教大学的组织行为研究员 Dritjon Gruda 在《自然》杂志职业专栏中写道,只要法学硕士不“代替你写出完整的评论”,利用线下法学硕士来改写笔记可以加快和完善撰写评论过程。

但西雅图华盛顿大学进化生物学家卡尔·伯格斯特罗姆 (Carl Bergstrom) 反驳道:“记一些肤浅的笔记,然后让法学硕士将它们综合起来,这远远不能写出一份充分的同行评审意见。”如果评审员开始依赖人工智能,这样他们就可以跳过撰写评审意见的大部分过程,他们就有可能提供肤浅的分析。“写作就是思考,”伯格斯特罗姆说。

Porsdam Mann 表示,法学硕士确实可以改善一些评审员的风格:这并不奇怪,因为一些同行评审很草率或写得不好。然而,法学硕士的输出几乎总是包含错误,因为这些工具的工作原理是根据其训练数据和输入生成在统计上似乎可能的文本——尽管研究人员正在寻找降低错误率的方法。

一项研究为 300 多名美国计算生物学家和人工智能研究人员提供了他们自己论文的评审意见,其中一些由人类审阅者撰写,另一些则由当时领先的法学硕士 (LLM) 之一 GPT-4 撰写2。研究表明,在很多情况下,人类和法学硕士之间的差距并没有那么大。约 40% 的受访者表示,人工智能比人工评审更有帮助,或者同样有帮助;另有 42% 的受访者认为,人工智能的帮助不如许多人工智能那么大,但比一些人工智能更有帮助(参见“比较人工智能和人类同行评审”)。

这项研究比较了人工智能和人工评审,由加州斯坦福大学计算生物学家 James Zou 领导,目前正在开发评审员“反馈代理”。它会根据常见问题清单(例如模糊或不恰当的反馈)评估人工评审报告,并反过来建议评审员如何改进他们的评论。

去年 12 月,在伦敦举行的出版商创新博览会上,许多人工智能开发人员排队推销改进同行评审的产品,这些产品的功能不仅限于编辑。去年,荷兰阿姆斯特丹的 World Brain Scholar (WBS) 公司推出了一款名为Eliza的工具,它可以提出改进评审反馈的建议,推荐相关参考文献,并将用其他语言撰写的评论翻译成英文。WBS 创始人 Zeger Karssen 表示,该工具并非旨在取代人类同行评审员。“该工具只会分析同行评审员写下的内容,”他说。

类似的工具是Review Assistant,由跨国出版服务公司 Enago 和 Charlesworth 开发。最初,该工具使用 LLM 系统回答有关稿件的结构化查询,然后审稿人可以检查或验证。但在与出版商交谈后,开发人员添加了“以人为本”模式,审稿人回答查询,然后让 AI 工具查看他们的答案。该工具的联合开发者、Charlesworth 全球运营总监 Mary Miskin 表示,该工具可以“以合法的方式支持审稿人做他们可能已经在非法做的事情”,她现居英国哈德斯菲尔德。

另一种 AI 方法旨在将审稿人从繁琐的同行评审工作中解放出来。位于英国斯蒂夫尼奇的一家名为 Grounded AI 的初创公司开发了一款名为Veracity的工具,该工具可检查稿件中是否存在引用的论文,然后使用法学硕士学位分析所引用的作品是否与作者的说法相符。联合创始人 Nick Morley 表示,它的功能就像“一个积极、严谨的人类事实核查员如果有充足的时间会经历的工作流程”。

最适合研究的 AI 工具有哪些? 《自然》杂志的指南

大量尝试将 LLM 辅助工具应用于现有论文 — 从用于发现图像重复的软件到统计检查程序。但研究人员表示担心 LLM 可能不可靠,一些明显的错误可能是误报。

一款已经在出版商中试用的 AI 审阅工具是Alchemist Review,由 Grounded AI 和弗吉尼亚州夏洛茨维尔的一家名为 Hum 的公司开发。该软件的创建者表示,它可以总结核心发现和方法,评估研究的新颖性,以及验证引文。他们还表示,审阅者可以在安全的环境中使用该工具,以保护手稿和作者知识产权的机密性。

美国物理学会出版机构 AIP Publishing 总部位于纽约梅尔维尔,其首席转型官 Ann Michael 表示,该机构正在两本期刊中试用该软件的一个版本。期刊编辑将测试该工具的原型,并酌情允许一些同行评审员试用。不过,Michael 表示,出版商不会测试该工具判断新颖性的能力,因为内部调查显示,编辑们认为该功能不如其他功能有用。“我们正在尝试学习如何负责任地将人工智能应用于同行评审,”她表示,并强调该工具是在人工评审之前使用的,而不是为了取代人工评审。

其他出版商也告诉《自然》,他们正在探索开发用于同行评审的内部人工智能工具,但没有透露具体在做什么。例如,威利出版社的一位发言人表示,他们正在“研究人工智能加强同行评审的各种潜在用例,包括在编辑和审稿人层面”。

2024 年 12 月的一项针对顶级医学期刊指南的研究3发现,在大型出版商中,爱思唯尔目前禁止审稿人使用生成式人工智能或人工智能辅助审稿,而 Wiley 和施普林格·自然则允许“有限使用”。施普林格·自然和 Wiley 都要求披露任何使用人工智能支持审稿的情况,并禁止在线上传稿件。(《自然》的新闻团队在编辑上独立于其出版商。)该研究指出,在 78 家提供相关指导的顶级医学期刊中,有 59% 禁止在同行评审中使用人工智能。其余的则允许使用人工智能,但要求各不相同。

人工智能在同行评审中最激进的应用是直接提供自动稿件评审的工具。一个例子是Paper-Wizard,它在论文上传时生成完整的多页评审,并检查方法设计的细节方面,例如统计严谨性。它的联合创始人、澳大利亚布里斯班的认知神经科学家 Shane Ehrhardt 表示,这是一款“同行评审前”产品,旨在帮助作者完成自己的工作。

研究人员对人工智能系统是否能够可靠地生成有用的同行评审意见存在着截然相反的观点。Poisot 写道:“LLM 不具备评审所需的批评能力。”他补充道,LLM 使用“很多很多的词来描述稿件”,但只字未提。但是,尽管目前的系统无法完成评审人员通常需要完成的任务,例如可靠地判断科学作品的原创性或质量,但与其他软件(例如参考检查器或统计程序)相结合的 LLM 可能会变得非常强大,学术交流顾问 Chris Leonard 在其《Scalene》时事通讯中跟踪人工智能和同行评审的发展。

“我相信,在未来两年内,通过人工智能自动审阅稿件的水平将超过目前大多数人工审阅——而且至关重要的是,速度会快得多,”Leonard 表示,他还是总部位于印度孟买的跨国公司 Cactus Communications 的产品总监。“我认为,这种自动审阅能力肯定会在一到五年后实现,”Ehrhardt 表示。

另一位爱好者是加拿大温哥华非营利性学术服务公司 OurResearch 的联合创始人 Jason Priem。他说:“我们非常有望让超人 AI 审阅所有文献。”

ChatGPT 正在改变同行评审——我们如何负责任地使用它?

许多研究人员不喜欢这个想法——至少,如果它强行介入期刊评审的话。“我不太喜欢人工智能撰写整个同行评审的想法。在这种情况下,不是评审员在和你说话。是机器在和你说话,”西班牙塞维利亚大学研究市场营销的科研诚信侦探 Maria Ángeles Oviedo-García 说。Oviedo-García 在数百篇评审中发现了重复的模板式措辞,尽管目前尚不清楚这是否是因为使用软件撰写的4。

伊利诺伊州芝加哥西北大学范伯格医学院研究研究伦理与诚信的 Mohammad Hosseni 表示,他担心未来会出现一个回音室效应,即人工智能会被用来撰写和审阅手稿,即使人类名义上仍然处于循环之中。

一个想法是,人工智能审阅可以先于人工审阅,但不能取代人工审阅。“我们设想未来人工智能将用于初步扫描所有投稿,并提供稿件质量摘要,然后由编辑审阅,然后再决定是否要求同行评审,”马萨诸塞州波士顿大学 Chobanian & Avedisian 医学院的儿科医生、JAMA前编辑 Howard Bauchner在去年发表的一篇论文中写道5。

Bauchner 表示,他尝试过许多 AI 评审服务,发现 Paper-Wizard 是发现统计和方法问题的最佳服务之一。“同行评审几十年来基本没有变化,但我们知道它效率低下,在检测各种欺诈行为方面往往无效,而且存在偏见。AI 为改进已提交的稿件以及正在接受同行评审的稿件提供了机会,”他说。

胡赛尼表示,他看到了增加人工智能审阅手稿以向作者提供更多反馈的好处,但认为这绝不能取代人工审阅。

对于那些反对人工智能逐渐取代人工评审的研究人员和出版商来说,一个令人不安的事实是,他们可能无法阻止这一过程。Hosseini 也是《研究问责》杂志的编辑之一,他说,如果研究人员使用人工智能撰写第一遍同行评审,并且不披露信息(违反出版商指南),那么可能无法被发现

Priem 表示,如果人工智能评审得到普及,这可能会改变科学实践。“每位研究人员都可以在预印本/数据集环境中运行自己的定制评审服务,只标记/提取他们当天想要的他们关心的科学(无论‘质量’水平如何)。”他今年早些时候在 X 上写道。他表示,这可能会开始侵蚀期刊的作用,因为它会剥夺期刊提供的同行评审认证。

对于 Hosseini 来说,即使科学界开始接受人工智能评论,也需要制定严格的透明度标准。“人工智能部分以及所使用的人工智能系统的每个细节、使用的提示、人工智能受到质疑的日期,所有这些都需要公开,”他说。

自然639 , 852-854 (2025)

机构编号: https://doi.org/10.1038/d41586-025-00894-7

来源:人工智能学家

相关推荐