摘要:Science重磅揭露科研圈两大乱象:一是「论文工厂」已形成庞大产业链,部分编辑、作者、中介相互勾结;二是ChatGPT悄然渗入科研写作,22%计算机论文含AI痕迹。系统性造假与技术滥用,正重塑学术界根基。
Science重磅揭露科研圈两大乱象:一是「论文工厂」已形成庞大产业链,部分编辑、作者、中介相互勾结;二是ChatGPT悄然渗入科研写作,22%计算机论文含AI痕迹。系统性造假与技术滥用,正重塑学术界根基。
谢赛宁是真倒霉!
跟刚刚《Science》爆出的科研圈两大丑闻,就是小巫见大巫,不值一提。
这次,顶刊《Science》连发两条新闻,曝光了科研圈的两大「陋习」:
(1)论文工厂肆虐,论文造假已形成产业链,全球科学期刊被系统性渗透;
(2)ChatGPT入侵学术圈,20%计算机论文已现AI痕迹。
如果说第一条是实锤了科研界早有的恶习,那第二条绝对是科研圈新的「坏现象」。
而且,这次是实打实的科学研究,研究非常系统,证据充足,扒下了科研圈「皇帝的新衣」。
科研欺诈形成产业链
多年来,专门研究科学不端行为的专家一直在警告:制造虚假科研论文的产业不仅规模庞大,而且手法日益复杂。
如今,一项大规模的调查提出了确凿证据。
论文链接:https://www.pnas.org/doi/10.1073/pnas.2420092122
这项研究分析了数千篇论文以及它们的作者和编辑,发现「科学诈骗」已经形成了产业链。
整个产业错综复杂、相互勾连,「论文工厂」只是其中的一部分,还涉及出版商、期刊和中介等多个环节。
西北大学从事元科学(metascience)研究的Reese Richardson等指出,已有作者与编辑组成关系网,合谋发表质量低劣甚至完全造假的论文。
他们还发现一些大型机构在期刊上批量投放虚假论文,怀疑中介机构起到了牵线搭桥的作用。
同时,研究显示,尽管目前虚假论文在科研文献的比例仍不算高,但增长速度远超学术出版物整体的增长趋势。
柏林自由大学的Anna Abalkina说道:「这项研究表明,学术不端行为已经演变为一项产业。」
她长期研究学术腐败。虽然没有参与这次研究,的Richardson和他的同事希望,这项覆盖广泛的调查能引起广泛关注,并推动学术出版体系的改革。
这些编辑撤稿率高得不正常
这次的分析从识别涉嫌腐败的编辑入手。
研究团队选择PLOS ONE作为重点调查对象,因为大型期刊不仅便于获取大规模的元数据,还会公开处理每篇论文的编辑姓名。由于该期刊每年发表数千篇论文,这些特性使得研究人员无需内部数据也能识别出潜在的异常情况。
他们首先筛选出所有曾被撤稿或在PubPeer上收到评论的论文,随后进一步追踪这些论文的责任编辑。
在线平台PubPeer允许研究人员对已发表论文提出质疑
总的来说,有33位编辑处理的论文,被撤稿或受质疑的频率远高于正常的统计概率。
Richardson表示:「其中一些人属于极端异常」。例如,有一位编辑 PLOS ONE审理的79篇论文中,竟有49篇被撤稿!虽然这些被识别的编辑只负责了截至2024年所发表论文的1.3%,但却涉及了几乎三分之一的撤稿论文。
研究团队还发现,这些编辑与某些作者之间的互动频率异常高。有些编辑经常互相审稿,这种关系令人怀疑。Richardson指出,一些编辑可能是收受了贿赂,但「也可能只是同事之间的一种私下安排」。
Hindawi旗下的10本期刊中也出现了类似的可疑编辑行为。在收购后,由于该期刊频繁出现论文工厂操作而被迫暂停运营。
科研也是生意
相关领域的学者早已怀疑编辑和作者之间存在勾结。
西班牙维戈大学的文献计量学家Domingo Docampo表示,这项新研究为这一长期猜测提供了「确凿证据」。
他补充道,虽然目前发现的问题集中在少数期刊,但其他出版物很可能也存在类似现象。
就在上周,Retraction Watch报道称,出版商Frontiers因发现在同行评审中,作者与编辑组相互勾结,未披露利益冲突,已开始撤回122篇论文。
根据声明,这一关系网共计35 人,还在其他7家出版商的期刊上发表了超过4000篇论文,目前也正在接受进一步审查。Frontiers表示,他们计划将相关信息分享给其他受影响的出版商。
Richardson团队发现,这一问题的根源远不止是个别作者与编辑之间「互帮互助」。他们发现,存在系统性「串通」操作,专门将大量可疑的论文集中发表。
研究人员分析了2000多篇在PubPeer上被标注为图像重复的论文,并识别出多个彼此共享图片的论文集。这些论文通常在同一时间段集中发表,且集中出现在少数几个期刊中。
Abalkina指出,通过图像重复来追踪潜在的造假网络是一种「真正具有创新性」的方法,「此前从未有人尝试过」。
有些案例可能源于单一论文工厂渗透的多个期刊,但研究团队也认为,有些集群可能是「中介」操控的结果——这些中介充当论文工厂与被攻陷期刊之间的桥梁。
研究团队进一步调查了总部位于印度金奈的Academic Research and Development Association(ARDA)。
这家机构提供的服务包括「论文撰写」和「期刊发表」,涵盖数十本期刊。
团队发现,ARDA提供的期刊名单在过去几年中不断更替:有新刊物加入,也有因被数据库除名而被移除的期刊。
Richardson指出,这些期刊经常刊登明显存在问题的论文,ARDA向研究团队提供的报价大约在250到500美元之间。该网站要求作者自行提交论文,这说明ARDA本身不是论文工厂,而是一个中介平台。
美国贝鲁特大学的信息科学家Lokman Meho表示,像ARDA这样的机构常以「编辑服务」为幌子公开运营。
虽然这些行为可能违反科研伦理,对学术界造成严重危害,但由于「开展这类业务在法律上并不违法」,它们并不避讳。
科研造假,贻害无穷
Richardson团队记录的问题正在迅速加剧。
他们发现,这类可疑论文每1.5年翻一番,增长速度是整个科研文献的10倍,虽然总体比例仍不算高。
同时,被撤稿的论文和在PubPeer上被标注的论文数量也在快速上升,分别每3.3年和3.6年翻番,但远远追不上造假论文的增速。
Abalkina指出:「这说明虚假科学的比重正在上升。」她特别警告,医学等领域尤为敏感,这些假论文可能被纳入系统综述和meta分析,从而误导人们对药物和治疗的认知。
莱顿大学的科学研究学者Wolfgang Kaltenbrunner指出,科学研究本身的快速扩张也是助长这一问题的因素之一。
论文工厂的产物往往被埋藏在影响力较低的期刊中,目的就是避免引起注意。在小型学术圈,这些问题更容易暴露,但随着某些领域日益庞大且缺乏透明度,这些论文更容易逃避审查。
他补充道,随着科研人员数量激增,许多机构愈加以论文数量作为评价标准,一些研究者因此转向论文工厂以快速积累「成果」。
国内亦有教授指出:
扭曲的激励机制、虚高的评价指标、「非发即亡」的文化氛围,以及对低质量研究的普遍纵容,都为论文工厂的繁荣提供了土壤。
Richardson也指出,在竞争压力下,一些年轻研究人员可能被迫购买论文工厂服务,避免被同行淘汰。
这项研究中的许多现象其实早已广泛猜测,但此次提供了有力的实证。
Kaltenbrunner说道
在问题规模和真相曝光方面,我们已经远远落后了。
这项研究最重要的启示就是:问题的规模远比我们想象的要严重。
Docampo补充说,除非出版商、科研资助机构以及招聘与晋升决策者真正采取行动并追责,「否则这一现象将持续扩散,而且还在迅速恶化。」
ChatGPT污染学术圈
自从2022年ChatGPT横空出世以来,科研圈使用人工智能撰写论文的频率持续飙升——如今,这股潮流已跨越多个学科,正在深刻重塑科研写作。
在一些领域,使用生成式AI撰写稿件已经几乎成了「标准操作」:在计算机科学领域,22%的论文被发现含有大语言模型(LLM)生成内容的痕迹。
研究团队分析了2020年至2024年间超过100万篇科学论文和预印本,重点聚焦摘要与引言部分,通过识别AI常用词汇,追踪语言风格的变化轨迹。研究结果令人震撼。
论文链接:https://www.nature.com/articles/s41562-025-02273-8
最终这项研究发表于《自然·人类行为》(Nature Human Behaviour)。
研究显示:到2024年9月,22.5%的计算机科学摘要显示出LLM修改的证据,电气系统和工程科学紧随其后,而数学摘要仅为7.7%。生物医学和物理学等学科的比例较低。
美国路易斯维尔大学的Alex Glynn表示:「这次研究非常有分量。」
他指出,在像计算机科学这样与AI高度相关的学科中,大语言模型的渗透程度如此之高,这一发现或将为监管和检测提供重要线索。
他补充到:「也许我们要重新思考,这场关于AI的对话,应主要聚焦在哪些领域。」
ChatGPT潜入科研圈
ChatGPT刚上线时,各大学术期刊如临大敌,纷纷出台限制使用AI撰写论文的政策,试图防止「AI水军」泛滥。
但很快,研究者就开始发现,大量提交的论文和评审报告中,出现了如「regenerate response」(重新生成回答)或「my knowledge cutoff」(我的知识截止时间)等「AI味」十足的短语。
图卢兹大学计算机科学家Guillaume Cabanac等人开始整理包含这些「确凿证据」的论文清单。
自2024年3月起,Glynn一直在维护Academ-AI数据库,记录科学论文中涉嫌使用AI的案例
Glynn说:「乍一看确实有些好笑,但深层含义却令人忧心。」
有些论文赤裸裸地自述:「我是一个AI语言模型。」甚至会劝读者去找更靠谱的信息来源。
问题是,LLM不仅可能胡编乱造「幻觉信息」,更可怕的是经过多轮同行评审后依然「混进」正式期刊,直接挑战科研论文质量底线。
更麻烦的是,随着技术升级,使用者掩盖痕迹的能力也越来越强。
为此,科学家们开始寻找更微妙的LLM使用迹象。
上个月,《科学进展》(Science Advances)发表了一项研究。
论文链接:https://www.science.org/doi/10.1126/sciadv.adt3813
这项分析了2010年至2024年间PubMed索引的1500多万篇论文,寻找ChatGPT发布后频率异常升高的「过量词汇」(excess vocabulary)。
2024年频率增加的词汇
由图宾根大学数据科学家Dmitry Kobak领导的研究显示,2024年约七分之一的生物医学研究摘要可能由AI撰写。
斯坦福大学计算生物学家James Zou采取了类似方法,调研多个领域。
论文链接:https://www.nature.com/articles/s41467-025-58551-6
他采取了类似方法:先找出ChatGPT发布前的论文段落,再用大语言模型对其进行摘要,再让AI根据摘要生成完整段落,最终训练出一套能识别AI文风的统计模型。
这个模型对「pivotal」(关键的)、「intricate」(复杂精细的)、「showcase」(展示)等原本罕见于科研写作的词语非常敏感。
研究团队将模型应用于2020年1月至2024年9月间的112万篇论文,包括arXiv、bioRxiv等预印本平台以及15种《自然》系列期刊。
结果显示,从ChatGPT于2022年11月发布起,不到数月,大语言模型生成内容的比例就出现剧烈飙升。
要知道,写一篇论文往往需要好几个月甚至几年。这说明从一开始大家就迅速开始用了。
不同学科增长速度不一。James Zou认为,这与研究人员对AI技术的熟悉程度有关。
但Zou强调:「大语言模型,无论是好是坏,成为科研过程不可分割的一部分。」
Kobak指出,实际AI使用频率可能更高,因为作者可能已开始删除「标志性」词汇以规避检测。
虽然研究主要聚焦于摘要和引言,Kobak担心未来由LLM生成内容训练新LLM的「恶性循环」。
参考资料:
来源:大力财经