Nature:21世纪“最具影响力”论文,这几款统计学工具入围

B站影视 电影资讯 2025-04-17 11:22 1

摘要:其中,scikit-learn论文和lme4论文分别为Python和R语言用户提供了强大的数据分析工具,分别排名第15和第14,免费程序G*Power排名第25。下面我们再详细介绍!

引用(作者在文献中承认先前来源的方式)是衡量一篇论文影响力的一个指标。

但被引用次数最多的论文通常并不是最著名的科学发现。相反,这些作品倾向于描述科学方法或软件,科学家们所依赖的主要工具。

2025年4月15日,《自然》杂志的一项分析揭示了本世纪发表的25篇引用率最高的论文,并探讨了它们打破纪录的原因。

老郑是搞统计学的,重点关注了一下上榜的几款统计学工具。

其中,scikit-learn论文和lme4论文分别为Python和R语言用户提供了强大的数据分析工具,分别排名第15和第14,免费程序G*Power排名第25。下面我们再详细介绍!

Nature选择了五个数据库进行分析,并采用了它们的中位数排名。这些数据库涵盖了 21 世纪发表的数千万篇论文。

《自然》新闻团队分析这25篇论文后得出,被引用次数最多的文章报道了:人工智能(AI)的发展;提高研究质量或系统评价的方法;癌症统计数据;科研软件。

然而,2004年一篇关于石墨烯实验的开创性论文也入榜了,该论文的作者因此获得了2010年的诺贝尔物理学奖。

统计软件

统计或编程软件相关论文,在榜单中名列前茅。

scikit-learn是一个为Python程序语言用户提供的免费、开源的机器学习预编程函数与技术库,获得了超过50,000次引用(或据Google Scholar统计达100,000次)。

而另一篇2015年的论文介绍了lme4软件包,该包利用免费编程语言R来分析采用特定统计模型的数据,其引用排名位于scikit-learn论文之上。

排名第25的一篇关于另一款高引用的免费程序G*Power的论文,该程序为生物学家提供了便捷的软件,帮助他们计算实验需要达到统计显著性所需的样本量。

值得注意的是,R编程语言本身未出现在榜单中,尽管OpenAlex记录其引用量超过30万次。

这是因为R的开发者建议用户引用一个网站,即软件所在的资源库,而并未撰写一篇标准的、权威的研究论文。

这也提醒研究者:若开发了有影响力的程序,发表一篇相关论文至关重要。

除此之外,其他高引用文章也有不少和统计分析息息相关,比如说深度学习、随机森林等方法,主题分析方法,改进版统计量I²等等,一起来看看其他榜上论文吧!

AI的崛起

“AI 论文在引用数量上天然占据优势”,这一领域的论文与众多领域都有相关性,21 世纪见证了极其迅速的进展以及大量论文的涌现。

本世纪被引用最多的论文是一份2016年的报告,由科技巨头微软的研究人员撰写,内容关于“深度残差学习”(deep residual learning)网络,也称为ResNets。这是一种人工神经网络——受神经网络启发的算法,支撑了深度学习以及随后一系列AI进展。

许多人将深度学习革命归功于 2012 年 Hinton 合著的一篇论文,该论文展示了多层人工神经网络的广泛实用性,排名第 8,关于深度学习的综述论文则位列第 16,ImageNet:一个大规模层次化图像数据库名列第 24 位。

引用排名中位列第 12 位的是,基于AlexNet结构进行改进的的U-Net论文,U-net 需要更少的训练数据来处理图像,“它至今仍是大多数图像生成扩散模型中的主要工作马力”。

2017 年,谷歌的研究人员发表了一篇具有里程碑意义的论文,题为《Attention is all you need》,该论文提出了一种被称为 Transformer 的神经网络架构,推动了大型语言模型的发展,这些模型支撑了像 ChatGPT 这样的工具。这篇论文是本世纪引用量第 7 高的文章。

排名第 6 的论文题为《Random forests》(随机森林),介绍了一种改进了以往类似方法的机器学习算法。这篇论文受欢迎的原因在于该方法开源、免费且易于使用。它还具有极佳的开箱即用性能,几乎不需要任何定制。

科研软件

本世纪第 2 被引用的论文并非偶然上榜:它的撰写目的明确是为了给研究人员提供可引用的依据提供了qPCR数据分析的标准公式,用于计算基因表达变化。

除此之外,排名第18的DESeq2论文则基于RNA测序数据分析基因表达。第5名的SHELX软件由英国化学家Sheldrick开发,用于解析分子晶体结构

癌症与健康研究

癌症研究论文的引言部分常见三篇被引用量极高的论文。

其中两篇(排名第9和第10)分别是2020年和2018年由GLOBOCAN发布的报告。

第三篇癌症论文(排名第19)是一篇综述,旨在将癌症的复杂性提炼为肿瘤中常见的一些特征。

排行榜上的第4名是有时被称为“精神病学圣经”的作品:《精神疾病诊断与统计手册》第五版(DSM-5)。2013年出版,被广泛用于精神疾病的分类与诊断,是唯一上榜的图书。

提高研究质量

排名第3的论文通俗易懂的介绍了“主题分析方法”:是一种定性研究方法,用于探索从一系列数据(如访谈)中提取出能解答问题的模式。并附上了一份执行该方法的标准检查表。

另一篇旨在提高研究质量的高被引论文发表于2003年,论文揭示了心理学和管理学等领域中行为研究的常见方法偏差,推动了这些领域研究质量的提升。

综述性文献的兴起

本世纪高引用论文中反映出的一个趋势是系统性综述和荟萃分析的兴起。在系统性综述中,这些综述中通常还包含荟萃分析,这是一种用于合并数值结果的统计技术。

2009年,Moher和他的同事通过在多份期刊上同步发表PRISMA声明来解决综述报告的质量“参差不齐”的问题,该论文提供了一份包含27项的清单,用于指导如何报告此类研究。位列高引用排行榜第11位。

PRISMA的引用量难以统计,但如果合并所有版本,可能会排名第一。

到2020年,近200种期刊及其他机构已认可使用PRISMA,该年,Moher和同事们又发布了更新版本,这个版本也跃上了高引用排行榜(位列第23)。

另一种方法则借助于大量荟萃分析的势头登上了高引用排行榜(位列第20)。

改进版统计量I²用以展示合并在荟萃分析中的研究结果彼此一致的程度,被纳入了《Cochrane干预系统综述手册》——这本手册是进行此类研究的必备参考。


来源:统计医研库

相关推荐