摘要:统计学,这门曾经被视为科学理性支柱的学科,如今成了许多人手中的一把双刃剑。它可以揭示真相,但更常见的是,它被滥用来制造幻觉。在现代科学体系里,统计学不只是个工具,而是一种语言,一种决定学术生死的游戏规则。游戏的规则制定者,是一群沉迷于p值的信徒,频率主义者(F
统计学,这门曾经被视为科学理性支柱的学科,如今成了许多人手中的一把双刃剑。它可以揭示真相,但更常见的是,它被滥用来制造幻觉。在现代科学体系里,统计学不只是个工具,而是一种语言,一种决定学术生死的游戏规则。游戏的规则制定者,是一群沉迷于p值的信徒,频率主义者(Frequentists);而真正想找到科学真相的人,正在被边缘化。
01有多少论文的结论是基于p
数据不够显著?加样本量。样本量还是不够?换个统计方法。方法不行?调整变量,直到p值好看。有人称之为“数据探索”,但更准确的说法是:p-hacking。只要在数据中翻找,总能找到一组让人惊喜的p值。至于这组数据是否真的能复现?不重要,论文发了,影响因子拿到了,学术考核过关了。
更可笑的是,这种p值崇拜在某些顶级期刊已经发展到了荒诞的程度。顶级生物学、医学期刊每年刊登大量p值显著的论文,其中很多结论根本站不住脚。2005年,斯坦福教授John Ioannidis发表了一篇名为《为什么大多数发表的研究结果是假的》的论文,在科学界掀起轩然大波。他用数学模型证明,在一个充满p-hacking、低统计功效(statistical power)的学术环境下,大量研究结果必然是伪科学。
但这篇论文并未改变学术界的风气,p值依然是评价科学的核心标准之一。更讽刺的是,很多学者看完Ioannidis的研究后,依旧没有放弃p值,而是想出了新的方法来“优化”它。
02频率主义统计学的核心逻辑是“长期重复实验的结果趋于稳定”,但现实世界里,科学家不可能无限重复实验。一个研究能不能复现,受限于时间、经费、研究者的兴趣,而不是统计模型的假设。
现实情况是,大量研究无法重复。2015年,心理学领域掀起了“可重复性危机”(Replication Crisis):一项涉及100篇心理学论文的大规模复现研究发现,只有不到40%的研究结果可以被重复验证。而在医学领域,情况更糟。一项针对53项高影响力癌症研究的复现实验发现,仅有6项可以被成功复现,复现率仅为11%。
是什么导致了这种情况?不仅仅是p-hacking,还有发表偏倚(publication bias)。科学家们并不喜欢负结果(negative results),因为负结果没法发表。顶级期刊不会接受一篇“我们试了,但没成功”的论文,所以研究者倾向于调整分析方法,让结果显得有意义。哪怕某个假设原本是错的,只要数据处理得当,最终都能变成“显著的”科学发现。
03如果说频率主义统计学的问题如此明显,为什么它还能在科学界占据主导地位?这背后是学术体系几十年的惯性。
贝叶斯统计(Bayesian Statistics)其实早在18世纪就已经被提出,但直到近几十年才逐渐进入主流视野。它的核心理念是:科学研究的过程并非单次实验,而是一个不断更新认知的过程。每一个实验的结果都应该基于先验知识进行调整,而不是孤立地依赖p值的显著性。
现实中,很多领域早已采用贝叶斯方法,例如天气预报、金融市场、人工智能。谷歌、Facebook等科技公司在做机器学习时,大量使用贝叶斯推断,因为它能够随着数据的增加不断调整预测精度。而在科学研究中,贝叶斯统计的优势同样显著。它不依赖p值,而是利用新数据不断修正先验概率,使得最终的科学结论更为稳健。
一个典型例子是CRISPR基因编辑技术。2012年,Emmanuelle Charpentier和Jennifer Doudna首次发现CRISPR系统,但当时科学界对其持怀疑态度。随后,大量实验陆续验证了这一技术的可靠性,最终形成了广泛共识。这就是贝叶斯统计的一个经典案例——随着证据的积累,科学家对CRISPR的信心逐渐上升,最终达成几乎100%的科学共识。
04在一个p值主导的学术环境里,很多荒诞的研究得以登上科学舞台。
2010年,《Journal of Zoology》发表了一篇研究,称普通蟾蜍(Bufo bufo)可以预测地震。结论?统计显著。2013年,《Journal of Personality and Social Psychology》发表了一篇论文,称实验数据支持“超感知能力”(ESP,即所谓的第六感)。
这些研究的共同点是:它们的p值看起来很美好,但缺乏真正的科学支撑。而学术界对此的反应呢?并没有太多批评,反而是一片沉默,甚至默认这些研究有发表的价值。
更严重的是,很多医学研究也存在类似问题。一项涉及5000多个医学实验的研究发现,超过30%的研究存在“数据修饰”问题,研究者有意无意地操纵数据,使其符合预期结果。
05如果说p-hacking和发表偏倚是科学界的问题,那么学术期刊的商业化更是让问题雪上加霜。
顶级期刊,如《Nature》、《Science》等,每年收取高额版面费,一篇论文的发表费用动辄数千美元。而这些期刊对研究质量的审核,往往取决于数据的“显著性”,而非数据的真实性。这导致科学家们不得不迎合期刊的游戏规则,追求能发表的研究,而不是能复现的研究。
《Nature Communications》的一篇论文甚至公然写道:“我们持续增加实验动物的数量,直到统计显著性出现。”这意味着,研究者并不是基于科学原则,而是基于p值来决定实验是否继续。这种做法在统计学上叫做“数据钓鱼”(Data Dredging),但在学术界,这反而成了一种普遍现象。
06统计学本应是科学探索的工具,但它已经被滥用成了一种伪装,一种让“可发表性”高于“可重复性”的学术游戏。p-hacking、发表偏倚、虚假研究、商业化期刊,这些因素共同造就了一个越来越不可信的科学世界。
科学的未来在于回归真正的探索精神,而不是在统计显著性上做文章。贝叶斯方法提供了一条新的道路,但学术界是否愿意改变?没人知道。
但可以肯定的是,依赖p值的科学,最终会毁掉科学本身。
来源:老胡科学