Science News:“排列组合”灌水论文井喷,92%一作来自中国

B站影视 韩国电影 2025-05-24 13:06 1

摘要:英国萨里大学的统计学家马特·斯皮克(Matt Spick)等人5月8日在PLOS Biology发表报告称,近年来基于公开数据集NHANES(美国健康与营养调查)的劣质论文数量急剧增加,其中92%的第一作者来自中国。这些论文模式高度雷同,可能是“论文工厂”借助

Science News报道,英国萨里大学的统计学家马特·斯皮克(Matt Spick)等人5月8日在PLOS Biology发表报告称,近年来基于公开数据集NHANES(美国健康与营养调查)的劣质论文数量急剧增加,其中92%的第一作者来自中国。这些论文模式高度雷同,可能是“论文工厂”借助AI生成的流水线产品。他们表示,这一发现表明大型公共卫生数据集很容易被滥用。

马特·斯皮克也是《科学报告》(Scientific Reports)的副主编,他从去年开始注意到,大量模式异常雷同的论文像潮水般涌入期刊。“我收到了太多几乎一模一样的论文——每天一篇,有时甚至两篇。”

这些论文都利用了一个公开数据集——NHANES,该数据集通过体检和问卷收集了超过13万人的健康相关数据。此外,异常论文都遵循相同的模板:针对某个人群,选择一种健康问题,再选择一种可能与之相关的环境或生理因素,然后分析两者相关性。例如研究65岁以上男性的维生素D水平与抑郁症之间的联系,或者18至45岁女性的牙齿健康状况不佳与糖尿病之间的联系。“感觉好像有人正在研究每一种可能的组合。”斯皮克说。

西北大学的里斯·理查森(Reese Richardson)表示,利用这些公开的免费数据源,通过简单替换变量便能炮制出新的“成果”,简直就像“疯狂填词游戏”。而NHANES支持通过API直接将数据提取到R或Python等机器学习环境,这些标准化的数据工具一方面提供了便利,另一方面也给“灌水”制造了可乘之机——论文工厂可以对指标、健康问题、队列进行广泛搜索,对大量变量进行排列组合,从而找到在统计学上看似显著(低p值),但实际上可能并无意义的组合。

据统计,在两个主要的科学论文数据库PubMed和Scopus中,有341篇异常论文发表在包括Scientific ReportsBMC Public Health、BMJ Open在内的147种期刊上。在2014年至2021年期间,平均每年发表4篇此类论文,但2022年之后开始快速增长,2024年仅前10个月,异常论文发表数就已来到190篇。研究认为生成式AI可能在背后推波助澜。

此外还发现,近期的异常论文大多来自中国:2021年之前发表的论文中只有8%的第一作者隶属于中国机构;2021年后这一比例激增至92%。斯皮克表示,这也表明论文工厂参与其中,中国研究人员面临的科研压力和激励机制起到了推动作用。

出版商Springer Nature的科研诚信主管Tim Kersjes表示,已经撤回了多篇异常论文,调查仍在进行中。BMJ的一位发言人表示,其对论文工厂和AI滥用也表示担忧,会严肃对待不端指控,并将展开调查。

相关论文:https://doi.org/10.1371/journal.pbio.3003152

来源:人工智能学家

相关推荐