摘要:今年7月,《Science》新闻(Science News)报道了一项令人震惊的研究发现:近 3 年来,大量低质论文正在借公共数据库和AI技术之便,涌入学术期刊,其中超过 90% 的论文由中国研究人员贡献。
【SciencePub学术助力发表】事件回顾
今年7月,《Science》新闻(Science News)报道了一项令人震惊的研究发现:近 3 年来,大量低质论文正在借公共数据库和AI技术之便,涌入学术期刊,其中超过 90% 的论文由中国研究人员贡献。
往期推文:《Scientific Reports》暴雷!利用公开数据“灌水”的劣质论文激增,92%来自中国
统计学家Matt Spick在担任《Scientific Reports》副主编时发现,大量采用美国国家健康与营养调查(NHANES)等公开数据的低质论文,正在涌入评审流程。
这些论文模式高度雷同:选取某种健康问题、关联的环境或生理因素,以及特定人群的已公开数据,通过简单替换变量生成所谓的“新发现”。
五大数据库 “灌水论文”激增
此外,《Nature》也在近期的报道中指出,除了NHANES,其他生物医学数据库(UK Biobank、FAERS、GBD和FinnGen)也频繁被这些低质论文利用。
FAERS——FDA的不良事件报告系统,这个我们药物警戒(PV)人最熟悉的数据“金矿”,最近,却被推上了一场前所未有的学术风暴的风口浪尖。大约从2023年开始,关于单个药品与特定不良事件关联的论文数量,出现了“巨型尖峰”(a huge spike)。
这些论文的主要代表刊物——《Frontiers in Pharmacology》和《Expert Opinion on Drug Safety》。
面对这场论文“洪水”,两家期刊终于出手了。
1
Frontiers in Pharmacology
自2025年5月起,要求所有基于健康数据集的研究,都需要进行独立的外部验证。期刊的研究诚信负责人表示:“我们担心的不是使用FAERS本身,而是那些几乎没有增加新科学见解的冗余分析的风险。”
2
Expert Opinion on Drug Safety
行动更为决绝。该期刊在7月下旬,决定完全停止接受使用FAERS数据库进行此类研究的主动投稿。其网站现在明确声明:“此类研究,只有在受到编辑团队特别邀请的情况下,才会被考虑。”
应对“数据库论文”收紧标准
面对这一问题,《Journal of Global Health》 也已采取行动:使用开放数据集投稿的作者必须声明过去三年内使用类似数据集发表过多少篇论文,披露是否使用人工智能撰写手稿,并解释其如何排除结果中的假阳性。
为应对“滥用数据集”的趋势,其他期刊和出版商或将效仿《Journal of Global Health》,引入类似的严格审核机制。
在检查这六个数据源论文的地理来源变化时,研究发现来自中国的论文从2021年占PubMed数据库索引论文的19%猛增至2024年的65%,为所有国家/地区中增长最多的。在这六个数据集中,FinnGen数据源的中国论文增长最为显著,截至2024年,89%相关论文的主要作者来自中国。
六个数据库的中国论文增长情况
五大生物医学公共数据库简介
1. NHANES(美国国家健康与营养检查调查)
基本介绍:由美国疾控中心(CDC)主导,始于1960年代,1999年起转为持续项目,每年调查约5,000名美国代表性人群。
全国代表性:采用分层抽样,过度覆盖老年人、非裔和西班牙裔群体。
数据访问:官网免费开放(XPT格式),可通过R、SAS等工具处理合并。
2. UK Biobank(英国生物样本库)
基本介绍:覆盖50万英国志愿者,历时15年收集基因组、生活方式及健康数据,2025年完成全球最大规模全身体成像项目(10万人)。
多模态整合:结合基因组、蛋白质组、电子健康记录,支持跨维度健康研究。
数据访问:研究者需申请,已支撑1,300+篇论文。
3. FAERS(FDA不良事件报告系统)
基本介绍:FDA用于监测上市后药品安全性的数据库,接收医疗专业人员/消费者的自愿报告。
报告偏差:受药品知名度、媒体报道影响,非全面统计。
数据访问:官网免费开放(TXT格式),含7个(DEMO/DRUG/REAC等)。
4. GBD(全球疾病负担研究)
基本介绍:由华盛顿大学健康指标与评估研究所(IHME)主导,覆盖204个国家/地区、300+疾病、70+风险因素,数据追溯至1990年。
科研产出:多篇《柳叶刀》论文涉及育龄妇女偏头痛、骨关节炎负担等主题。
数据访问:官网免费开放,可通过GBD Compare勾选参数(疾病、地区、年份、指标如DALY/死亡率),直接下载CSV文件。
5. FinnGen(芬兰基因组计划)
基本介绍:2017年启动的公私合作项目,整合50万芬兰人基因组与电子健康记录,利用芬兰人群遗传独特性(基因隔离)解析疾病机制。
独特价值:孟德尔随机化研究:通过遗传变异推断环境因素与疾病的因果关系。
数据访问:通过学术合作申请或等待1年保护期后公开(存于FinnGen Release Portal)。
本文仅为信息交流,侵删
✊专注SCI,SSCI,AHCI,EI,Scopus,知网/谷歌等,全科覆盖
后台私,为您的研究方向及要求【一键匹配期刊】
来源:Sciencepub学术