大语言模型(LLMs)正以前所未有的方式,深刻影响着学术同行评审的格局。同行评审作为科学研究的基石,其重要性毋庸置疑。然而,随着大语言模型逐渐渗透到这一核心过程,我们是否已经准备好面对它可能带来的深远影响?在这场变革之前,我们必须清醒地认识到其中潜藏的风险,并采取切实可行的防范措施。近年来,大语言模型在多个领域展现出了令人惊叹的潜力。同行评审作为一项既繁琐又至关重要的任务,正在引起越来越多学者的关注并尝试利用大语言模型来辅助甚至替代审稿,力图提高这一传统流程的效率。斯坦福大学的研究团队便在《NEJM AI》子刊上发布了相关研究,指出大语言模型能够生成与人类审稿人相似的审稿意见。而根据斯坦福团队的估算,最近的若干个 AI 顶会中,竟有高达 6.5% 至 16.9% 的论文内容由大语言模型显著调整过!同样,瑞士洛桑联邦理工大学(EPFL)的研究发现,ICLR 2024 的审稿过程中,约 15.8% 的评审意见是 AI 辅助生成的!与此同时,越来越多的人开始在社交媒体上抱怨审稿人利用大语言模型进行审稿。种种现象表明,大语言模型已经悄然渗透到了学术审稿的最前线,显现出一种不容忽视的趋势。然而,在其大规模使用之前,我们对其潜在的风险却没有一个清醒的认知。这无疑给同行评议的可靠性带来了巨大的风险。在此背景下,上海交通大学、佐治亚理工学院、上海市人工智能实验室、佐治亚大学与牛津大学的科研团队联合展开了深入研究,发表了最新论文《Are we there yet? Revealing the risks of utilizing large language models in scholarly peer review》,揭示了大语言模型在审稿中潜藏的风险。研究表明:操控风险:作者可能通过在文章中巧妙插入肉眼无法察觉的文本,直接操控大语言模型生成的审稿意见,甚至操控最终的论文评分。隐性操控:大语言模型倾向于复述作者主动在文章中揭示的局限性,令作者可以通过有意暴露轻微缺陷,从而隐秘地操控审稿过程。幻觉问题:更为严重的是,大语言模型可能对空白文章生成虚构的审稿意见,揭示了「模型幻觉」问题在审稿中的潜在威胁。偏见问题:大语言模型在审稿过程中也暴露了明显的偏好,尤其对文章长度和著名作者及机构的偏爱,极大影响评审的公正性。这些发现暴露出了我们在拥抱新技术的同时,可能忽视的重大风险。为此,研究者们发出了警示:学界应当暂停使用大语言模型替代审稿工作,并呼吁制定有效的防范措施,确保科技进步能够在更加健康、透明的框架内进行。摘要:大语言模型(LLMs)正以前所未有的方式,深刻影响着学术同行评审的格局。同行评审作为科学研究的基石,其重要性毋庸置疑。然而,随着大语言模型逐渐渗透到这一核心过程,我们是否已经准备好面对它可能带来的深远影响?在这场变革之前,我们必须清醒地认识到其中潜藏的风险,并
来源:国豪教育
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!