大语言模型(LLMs)正以前所未有的方式,深刻影响着学术同行评审的格局。同行评审作为科学研究的基石,其重要性毋庸置疑。然而,随着大语言模型逐渐渗透到这一核心过程,我们是否已经准备好面对它可能带来的深远影响?在这场变革之前,我们必须清醒地认识到其中潜藏的风险,并采取切实可行的防范措施。近年来,大语言模型在多个领域展现出了令人惊叹的潜力。同行评审作为一项既繁琐又至关重要的任务,正在引起越来越多学者的关注并尝试利用大语言模型来辅助甚至替代审稿,力图提高这一传统流程的效率。斯坦福大学的研究团队便在《NEJM AI》子刊上发布了相关研究,指出大语言模型能够生成与人类审稿人相似的审稿意见。而根据斯坦福团队的估算,最近的若干个 AI 顶会中,竟有高达 6.5% 至 16.9% 的论文内容由大语言模型显著调整过!同样,瑞士洛桑联邦理工大学(EPFL)的研究发现,ICLR 2024 的审稿过程中,约 15.8% 的评审意见是 AI 辅助生成的!与此同时,越来越多的人开始在社交媒体上抱怨审稿人利用大语言模型进行审稿。种种现象表明,大语言模型已经悄然渗透到了学术审稿的最前线,显现出一种不容忽视的趋势。然而,在其大规模使用之前,我们对其潜在的风险却没有一个清醒的认知。这无疑给同行评议的可靠性带来了巨大的风险。在此背景下,上海交通大学、佐治亚理工学院、上海市人工智能实验室、佐治亚大学与牛津大学的科研团队联合展开了深入研究,发表了最新论文《Are we there yet? Revealing the risks of utilizing large language models in scholarly peer review》,揭示了大语言模型在审稿中潜藏的风险。研究表明:操控风险:作者可能通过在文章中巧妙插入肉眼无法察觉的文本,直接操控大语言模型生成的审稿意见,甚至操控最终的论文评分。隐性操控:大语言模型倾向于复述作者主动在文章中揭示的局限性,令作者可以通过有意暴露轻微缺陷,从而隐秘地操控审稿过程。幻觉问题:更为严重的是,大语言模型可能对空白文章生成虚构的审稿意见,揭示了「模型幻觉」问题在审稿中的潜在威胁。偏见问题:大语言模型在审稿过程中也暴露了明显的偏好,尤其对文章长度和著名作者及机构的偏爱,极大影响评审的公正性。这些发现暴露出了我们在拥抱新技术的同时,可能忽视的重大风险。为此,研究者们发出了警示:学界应当暂停使用大语言模型替代审稿工作,并呼吁制定有效的防范措施,确保科技进步能够在更加健康、透明的框架内进行。图 8. 大语言模型审稿被作者机构显著影响倡议与总结随着大语言模型(LLM)在学术同行评审中的应用日益增多,研究者们深入分析了其潜在风险,并提出了相应的建议,旨在确保学术审稿过程的公正性和严谨性。基于研究结果,研究者们提出以下倡议:暂停 LLM 在同行评审中的替代性使用:研究者们呼吁在充分了解 LLM 的风险并采取有效防范措施之前,暂停其在同行评审中的替代式应用。引入检测工具与问责机制:研究者们呼吁期刊和会议组织者引入全面的检测工具与问责机制,以识别并应对审稿过程中可能的操控行为;并引入惩罚措施来遏制这些行为的发生。将 LLM 作为辅助工具使用:展望未来,研究者们认为随着投稿数量的持续增加,LLM 在审稿过程中的自动化潜力不可忽视。尽管 LLM 目前还无法完全取代人类审稿,但其仍有潜力作为审稿过程的补充工具,提供额外反馈以提升审稿质量。增强 LLM 审稿系统的稳健性与安全性:未来应致力于开发一种能够有效整合 LLM 的同行评审流程,既能最大化它们的潜力,又能有效防范我们已识别的风险,增强其稳健性和安全性。总结而言,虽然 LLM 在提升审稿效率和质量方面有潜力,研究者们强调必须谨慎推进其应用。只有在确保其风险可控且有有效的防范机制后,才能负责任地将 LLM 整合进学术同行评审中,避免破坏学术出版的公正性和严谨性。(最后研究者们仍在做进一步的问卷调查,邀请广大有投稿 / 审稿经历的同行参与,共同探讨这一新兴技术对学术审稿流程的影响。可点击如下 Google 问卷 [2-5 mins]:https://forms.gle/c9tH3sXrVFtnDgjQ6)© THE END转载请联系本公众号获得授权投稿或寻求报道:liyazhou@jiqizhixin.com摘要:大语言模型(LLMs)正以前所未有的方式,深刻影响着学术同行评审的格局。同行评审作为科学研究的基石,其重要性毋庸置疑。然而,随着大语言模型逐渐渗透到这一核心过程,我们是否已经准备好面对它可能带来的深远影响?在这场变革之前,我们必须清醒地认识到其中潜藏的风险,并
来源:国豪教育
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!