摘要:同行评审是“科学共和国”中最重要的契约:无处不在,高度同质化,是当今资源分配的关键程序,但又几乎令所有人都不满。上月底(本文发表于2024年10月),韩启德老师在50平方论坛上评论,“同行评审也存在着很大的局限性,只能说是最不坏的办法。”
同行评审是“科学共和国”中最重要的契约:无处不在,高度同质化,是当今资源分配的关键程序,但又几乎令所有人都不满。上月底(本文发表于2024年10月),韩启德老师在50平方论坛上评论,“同行评审也存在着很大的局限性,只能说是最不坏的办法。”
追溯源起是剖析问题的有力武器之一,也正是这篇文章的主旨。也许出乎很多人意料的是,同行评审远非科学规律自然演化的结果,也并不带着成为评价科学工作可信度的决定性工具的目的而生,今天被赋予的地位,更多是激烈对持的几个政治团体在仓促间把它推向前台,是多方妥协的折中结果。
这个略显粗暴的过程,形成了公众认知,也带来了网络效应和巨大压力,使反思变得异常艰难。解铃还须回归系铃处;正因如此,回到过去,抽丝剥茧,对健康的反思是很有帮助的。
原文发表于ISIS,2018年第3期。作者Melinda Baldwin,科学传播史学者。原标题《Scientific Autonomy, Public Accountability, and the Rise of “Peer Review” in the Cold War United States》。
全文17000字。
科学自主与公众问责,
及冷战后崛起的“同行评审”
当这篇文章付梓时,它已经通过了各科学者们所熟悉的一道道关卡。本刊编辑会把它寄给两三位匿名审稿人。如果审稿人认为文章内容有发表的价值(这篇文章在找到归宿之前可能会被退稿一次、两次或多次),他们会提出文章应如何改进的意见。我将在随后的修改中处理这些批评意见,加强文章的证据和论点,直到编辑和审稿人都认为最关键的反对意见已经得到了回应。最终结果是在同行评审的期刊上发表的论文——相比我在个人网站上发布的作品,或非外部评审的预印本文章,这篇论文将获得更多的专业荣誉,拥有更高的学术可信度。
大多数学术领域中,经同行评审的论文和资助都拥有特殊的地位,在科学界尤其如此,因为在科学界,未经同行评审检验的研究成果通常被视为是初步的,或不可靠的。长期以来,我最喜欢的例子是2012年《物理快报》B 版一篇论文的标题:“欧洲核子研究中心的希格斯玻色子发现通过同行评审,成为真正的科学”。
关于同行评审的起源,最广为接受的说法是,Henry Oldenburg为十七世纪的《皇家学会哲学通讯》(Philosophical Transactions of the Royal Society)发明了同行评审,给人的印象是,三百多年来,同行评审一直是科学中亘古不变的一部分。然而,新的历史研究开始揭示同行评审的发展历程——真实故事远比Oldenburg在科学革命期间凭空发明评审的故事要复杂得多。
现有大多数同行评审史都侧重于十九世纪科学评审员的出现,或特定期刊评审系统的内部运作。这些研究表明,最初人们并不认为同行评审是一个赋予科学可信度的过程,许多知名期刊和资助机构直到二十世纪都没有系统的(或根本不存在)评审过程。那么,我们是如何走到今天这一步:同行评审被认为对科学至关重要,以至于没有同行评审的新发现就不是“真正的科学”?
本文中,我认为同行评审作为科学核心程序的图景,可以追溯到冷战时期的美国,当时各利益相关方在政府科学资助的争议中,试图驾驭科学界的自主愿望与公共问责制之间日益紧张的关系。首先,我将追溯科学期刊评审制度的发展历程,这是学者们研究最多的机构。在此基础上,我将探讨资助机构评审制度的发展,在这方面的历史研究相对较少。尽管两类机构的评审程序存在重大差异,但到1960s和1970s,评审工作在期刊和资助机构中都变得更加重要;我的研究将显示,冷战时期的美国为这种重要性的日益增长提供了关键背景。
战后美国政府对科学研究的资助大幅增加,这导致科学开始面临更严格的审查,也导致有人建议科学家应更多地对公众负责。科学家们反对由外行人审查其方法或结论,但又不想放弃自己已经获得的公众地位或资助机会。20世纪70年代,美国国家科学基金会(NSF)的同行评审程序引发了一场争论,这场争论凸显了当时的矛盾:科学家的愿望是将科学决策掌握在专家手中,而公众信念是公共支持使得科学家需要对外行和立法者负责。在一次关于国家科学基金会评审程序的听证会上,各利益相关方争辩说,同行评审是选择资助提案的唯一可接受程序,而争议的结果则使国家科学基金会更加重视评审人的意见。这一事件既反映、又巩固了这种观点:同行评审是正确科学实践的核心。
二战前的期刊评审历史
由于评审对科学和学术工作如此重要,过去几十年来,许多科学家、医生、记者和社会学家撰写了大量论文和书籍,分析同行评审的当代状况。现代经济学家、社会学家和科学哲学家继续对同行评审如何在科学界发挥作用进行了研究,最近还出现了一些关于期刊评审的优秀作品。社会学家Joanne Gaudet研究了期刊同行评审的方法和假设,认为同行评审制度是由学科条件和经济背景决定的。哲学家Carole Lee及其合作者对同行评审中的偏见功能进行了研究,并挑衅性地指出,消除偏见可能是不可能的,也是不可取的。
有趣的是,同行评审最著名的历史起源故事不是由历史学家撰写的,而来自一对社会学家。Harriet Zuckerman和Robert Merton在1971年发表的论文《科学评价模式:评审制度的制度化、结构和功能》中宣称,评审起源于17世纪的伦敦皇家学会。论文中写道,1665年,当英国皇家学会允许其秘书Henry Oldenburg编纂《哲学通讯》(Philosophical Transactions)时,他立即决定就提交发表的论文收集专家意见。这一版本的同行评审历史在其他学术论文中广为流传和重复,给人造成一种普遍印象,即自从第一本科学杂志诞生以来,评审就一直是科学的一部分。
然而,最近的历史研究表明,Oldenburg在《哲学通讯》中并没有采用与现代评审类似的制度。其他早期的科学协会,如法国科学院,确实有在其成员的作品发行前对其进行评估的程序,但这些内部评论系统似乎并不能反映或演进到我们今天所知的系统化外部评审。Aileen Fyfe、Julie McDougall-Waters和Noah Moxham将这一时期描述为同行评审“前史”,这很有帮助。
同行评审远非科学革命的产物,而是在十九世纪发展起来的,它的传播缓慢而杂乱,一路上遇到了许多怀疑和批评。口头审核投稿的程序出现较早,一些科学学会早在十八世纪就开始执行;由领域专家撰写书面报告的同行评审直到1831年才出现,当时威廉-惠威尔(William Whewell)提议由皇家学会的两名会员写下他们对《哲学通讯》投稿的意见,并将其发表在新期刊《伦敦皇家学会会议录》上。
惠威尔的评审计划很快就被放弃了,但是将提交给《哲学通讯》(后来是《伦敦皇家学会会议录》)的论文送交评审征求意见的做法却延续下来,并不断扩大。到19世纪中期,安排评审已经成为皇家学会秘书的主要职责之一。虽然惠威尔曾考虑对作者和期刊读者公开推荐人身份,但皇家学会很快就决定,如果推荐人保持匿名,他们会给出更坦诚的建议。事实上,他们的报告甚至都不会寄给论文作者——评审报告被视为皇家学会内部使用的机密文件。如果皇家学会秘书成员希望向论文作者表达意见,他会用私人信件,但不会透露评审人的身份。因此,匿名性在历史上很早就与评审实践紧密联系在一起。
十九世纪和二十世纪初,美国和英国越来越多的科学和学术团体采用了系统咨询匿名评审人的做法。例如,英国地质学会和皇家化学学会都在19 世纪对其出版物采用了评审制度,而美国物理学会和美国社会学协会则在20世纪初采用了这一制度。在这一时期,人们对科学文献质量的担忧导致“评审”被重新定义为“守门人”——负责确保科学论文值得发表。这种将评审人视为科学文献守护者的观点,使得很多期刊将评审交到少数精英科学家手中,许多人因此在自己的专业领域拥有决定期刊内容的巨大权力。
一二战期间,进步时代对标准化的广泛追求,对科学实践产生了巨大影响,尤其是在美国。对标准化的追求似乎是影响英国和美国科学协会制定日益正规的评审程序的动力之一。例如,美国物理学期刊《物理评论》(Physical Review)的评审程序在1920s和1930s变得更加规范。评审过去的工作方式是自由格式,分享对投稿的总体印象,现在则被要求填写表格,根据预先确定的一系列标准来评估论文是否合适。然而,《物理评论》接受的大多数论文根本就没有征求过审稿人的意见;大多数论文都是由编辑自行接受的,只有当他认为可能要拒绝某篇论文时,才会征求评审的意见。直到1960s,《物理评论》的所有论文才开始征求外部审稿人的意见。
二十世纪中叶,《哲学杂志》和《自然》等商业科学期刊的编辑决策基本上都是由内部人员做出的。许多商业期刊都是充满活力的科学编辑的个人项目,他们认为自己有资格评估任何可能投稿给他们的文章。科学协会的出版物只要有足够的材料就会出版,而商业期刊则不同,它们必须遵守每月或每周的截稿期限,通常无法拒绝过多的稿件,也无法等待外部审稿人提交报告。
19世纪和20世纪初,在英语科学世界之外,审稿工作也相对少见。例如,隶属于法国和德国学术机构的期刊通常不采用评审程序。1835年,法国科学院创办了《科学院会议论文集》(Comptes Rendus Hebdomadaires des Séances de l'Académie des Sciences),为了更快地出版这本新期刊,科学院有意避开了审稿。德国最著名的期刊,如《物理与化学年鉴》,一般都由一位有权势的编辑控制,他倾向于不依赖评审人的意见。科学家很可能并不习惯、也不认可评审制度的优越性。著名的例子是,1936年,爱因斯坦发现《物理评论》的编辑把他的投稿发给了另一位物理学家进行评审,这让他非常恼火。爱因斯坦在给编辑John Tate的一封简短的信中写道,他和他的合著者“并没有授权你在[我们的手稿]付印之前交给专家。我认为没有理由回应你们的匿名专家的评论——无论如何都是错误。基于这一事件,我倾向于在其他地方发表”。
直到二十世纪,有声望的科学杂志都可以而且确实在发表论文时不征询审稿人的意见。许多在二十世纪中期采用审稿制度的期刊并非出于认识论的考虑,而是为了减轻编辑的工作量。以美国《科学》周刊为例,在20世纪上半叶,编辑部内部几乎承担了所有的审稿工作。1950s,该期刊开始更多地依赖外部审稿人,因为编辑部成员抱怨说:“为数百篇技术论文提供审稿和修改建议的工作既不能充分利用他们的时间,也不令人愉快和满意”。《美国医学杂志》(AJM)是另一个用评审减轻编辑负担的例子。AJM于1946年创刊时,其编辑Alexander Gutman亲自处理绝大多数论文,以确保快速发表。然而,随着该杂志越来越受欢迎,Gutman无法跟上投稿数量的增长。1960s中期,AJM开始接受外部评审,以确保该期刊能够保持快速出版的声誉。
其他著名的英文期刊甚至更晚才采用系统的外部评审。1960末期,《新英格兰医学杂志》开始由两名外部审稿人审查所有可能被接受的论文。一直到1970s,英国医学期刊《柳叶刀》都在很大程度上依赖编辑的判断,编辑自己接受或拒绝高达90%的投稿。
值得注意的是,似乎越来越多的人认为,美国人比其他国家的同行更重视系统的外部评审。David Davies是英国地球物理学家,曾在1973年至1980年期间担任《自然》杂志编辑,他接受这一职位时还在麻省理工学院工作。他后来回忆说,他和他的美国同事对《自然》不系统的审稿态度感到震惊,他认为“让审稿系统无可指责”是他作为编辑最重要的任务。到1970s末,《柳叶刀》的编辑担心,除非该杂志开始采用同行评审,而不是让编辑自行接受论文,否则其文章在美国可能不会受到重视。尽管有这样的担忧,《柳叶刀》还是决定限制审稿人对编辑的影响力。在1989年的一篇社论中,该杂志抱怨说:“在美国,审稿人对编辑的影响太大了。对同行评审的要求很高”,并自豪地向读者保证,在《柳叶刀》杂志,“审稿人是顾问,而非决策者”。
资助机构评审历史
编委会负担的加重为20世纪末期刊更广泛地使用审稿提供了一条线索,但这并不能解释科学界如何将审稿视为科学合法性的关键。要理解这一转变,我们不仅要看期刊,还要看资助机构。社会学家在资助机构的评审制度方面做了大量出色的工作,尤其是在过去十年。其中一个值得注意的项目是同行评审比较评估(CAPR),该项目对全球六家资助机构的同行评审程序进行了为期四年的研究,分析了同行评审程序如何平衡科学界对自主权的渴望与资助机构对科学研究保持相关性和对公众负责的愿望。Michèle Lamont在2009年出版的《教授是如何思考的》一书中,研究了人文学科的基金同行评审小组,说明了不同领域对“优秀”工作的看法存在有趣的分歧,并揭示了同行评审对学术界成员的社会功能。
然而,关于资助机构评审制度发展的历史研究要少得多,这或许是因为在20世纪晚期之前,很少有资助机构使用系统的评审程序。许多资助机构的评审程序缺乏系统性,或者是内部评审,由机构员工全权负责。例如,洛克菲勒基金会等私人资助机构在战后一直将资助决定权交到值得信赖的中层管理人员手中,通过Robert Kohler所描述的“赞助体系”发放资金。德国研究基金会成立于1920年,最初名为德国科学紧急协会,它有意选择依靠少数精英科学家对资助提案发表意见,而且大部分评估都集中在申请人的个人素质上。一直到20世纪,伦敦皇家学会的所有政府资助申请都由一个三人委员会进行评估;尽管所有人都可以申请,但结果几乎只资助皇家学会的研究员。
隶属于学术团体或政府的资助组织最有可能采用外部评审,其中一些组织采用外部评审是为了响应进步时代对标准化的推动。例如,美国国家研究委员会(NRC,美国国家科学院下属的研究机构)在1920s和1930s制定了日益正规化的评审程序,部分原因是为了确保公平对待未在全国范围内建立声誉的研究人员。但许多政府资助机构,包括20世纪中期成立的机构,都放弃了系统化的外部评审,转而成立由研究人员组成的内部小组,负责评估所有资助。在英国,政府在第一次世界大战后成立了医学研究委员会(MRC),以促进医学研究。理事会成员由科学专家和立法者组成,二战前,资助决定完全由理事会成员做出。1946年,医学研究理事会成立了任命和资助委员会,帮助处理资助申请的行政工作,但该委员会最终也要对理事会负责,似乎只是偶尔听取外部意见。
同样,当美国政府于1948年成立国立卫生研究院(NIH)时,其研究资助部门最初在评估资助申请时,很少或根本不征求外部评审的意见。相反,每份申请都首先提交给一个小型“研究小组”,该小组由NIH下属的特定领域的科学专家组成。然后,研究小组的建议被提交给由科学家和非专业人士组成的NIH理事会,理事会再提出自己的建议。最后的决策权掌握在研究所所长手中,他们是NIH成员机构的负责人,如国家癌症研究所和国家眼科研究所。虽然所长们会考虑先前的评估,但他们没有义务遵循研究小组或理事会的建议。此外,申请者几乎不会收到反馈。有关资助的讨论被认为是保密的,属于NIH的内部事务。
根据1950年《国家科学基金会法》成立的国家科学基金会(NSF)比NIH更依赖外部专家。从一开始,NSF的提案审查程序就是为了让各基础科学领域的专家参与进来。一些提案被寄出进行“特别”邮寄审查,即把提案副本邮寄给科学家,由他们回邮提出意见。其他提案则由在华盛顿召集的特别专家小组进行评估。评审人员的选择,以及专家小组评审与邮寄评审的选择,都由NSF员工决定。1975年,根据NSF的内部统计,44%的提案通过邮件审查,28%的提案接受专家小组的审查,28%的提案接受这两个系统的混合评审。
然而,与NIH一样,NSF最终也是由其领导人来决定资助哪些研究项目。评审人的意见只是决定中的环节之一——重要、但并非决定性的一环。正如一份NSF内部文件对该系统的解释:“其目的是让项目官员在考虑所有相关因素和输入后,做出最终决定。”此外,提交提案的科学家不会得到评审意见的副本,只有一份由NSF员工编写的总结报告,说明接受或拒绝提案的主要原因。
然而,在1975年的一场争论之后,NSF和NIH都开始更加重视外部评审人的意见。如今,就像很难找到一份不采用同行评审的值得尊敬的科学杂志一样,几乎不可能找到一家不采用外部同行评审的主要资助机构。现在,许多主要的资助机构都使用外部评审人——即不受雇于资助机构的独立专家——来说明他们对提案的谨慎态度。医学研究委员会网站有一个页面专门介绍其“外部同行评审程序”的细节。德国研究基金会向申请者保证,它每年会咨询九千多位外部评审人。NIH在其网站上有多个页面,解释其评审过程中的各个步骤,以及他们如何确保基金评审的“完整性和保密性”。
当我们同时考虑资助评审和期刊评审时,就会发现有趣的对比。资助机构经常组建专家小组,并经常当面开会,这种做法与期刊将一篇论文寄出征求两三个人意见的制度形成了鲜明对比。此外,从理论上讲,期刊评审人只对手头的论文进行评审,而资助申请者则必须提交个人简历和以前工作的证明。基金评审人在做出决定时会明确考虑申请人的背景因素,这就使得评审人的报告既是对这一特定提案的评判,也是对该科学家的工作成果的评判,而且往往还是对其个人素质的整体评判。这也是认识论上的差异。期刊评审人评估的是已经完成的科学工作,并判断论文的结论是否应该在专业期刊上发表。从理论上讲,基金评审人是对尚未完成的科学进行评判,而且在有关基金评审的讨论中,人们往往隐约感觉到,即使是最好的提案也存在一定的风险。基金评审与期刊评审在历史上最显著的对比或许是,直到二十世纪中期,基金评审还非常罕见。大多数资助机构都是由少数专家做出决定,这种制度类似于许多期刊所采用的编委会模式,而在此之前,评审工作已成为编委会成员的沉重负担。此外,期刊评审程序似乎对基金评审程序影响甚微,反之亦然;正如John Burnham所言,这两种制度似乎在很大程度上是独立发展的。
但这种独立性并不意味着,历史学家应继续将这两种评审完全割裂开来。20世纪末,特别是1960s末和1970初,期刊和资助机构同时面临着越来越大的聘用外部审稿人的压力,并非巧合。如果我们考虑到,最有可能聘用审稿人的是美国期刊和资助机构,而且美国人比其他国家的同行更依赖审稿人,这二者也不应该是巧合。在美国还发生了另一件事:越来越多的美国人开始用“同行评审”这个新名词来称呼审稿工作。
“同行评审”词汇溯源
“同行评审”一词在语言学上有一段耐人寻味的历史。它似乎并非源于期刊,也不是指外部评审人,而是源于资助机构和医学界的评审委员会。例如,在20世纪60年代和70年代初,美国各大报纸通常用“同行评审”来指代对医疗实践是否符合医疗保险和医疗补助的审查。
要追踪“同行评审”一词进入英语科学界的过程,不妨看看《科学》和《自然》这两份包含新闻和评论的著名科学周刊。《科学》在1965年的一篇关于NIH的文章中首次使用了“同行评审”一词。Joseph D. Cooper解释说,作为NIH评审过程的一部分,“项目受赠者......被要求对同行评审进行评估。......被要求对项目审批系统的产出进行评估,他们作为受赠者和同行评审小组的成员都密切参与了这一系统”。然而,《科学》杂志直到1970s才开始频繁使用这一术语,而且主要是针对医学期刊和NIH的评审程序。在大西洋彼岸,英国的《自然》杂志直到1971年才开始使用该术语,在1970s的大部分时间里,该术语仅用于指代美国生物医学领域的基金或机构评审。1975年《自然》杂志的一篇文章将“所谓的同行评审制度”具体描述为“评判相互竞争的资助提案相对优劣的方法”。
在医学文献中,《新英格兰医学杂志》(New England Journal of Medicine)于1969年首次使用 "同行评审"(peer review)一词,指确保医院和医生遵守新的医疗补助资助计划规定的程序:"尽管各州卫生当局多年来一直关注标准的制定以及设施的许可和监管,但很少有哪个州的计划可以夸耀自己建立了有效的监督或'同行评审'方法,以确保医疗补助计划下的机构和专业服务的充分性"。
同样,该词也首次出现在《美国医学会杂志》(JAMA)上1970年,《美国医学会杂志》开始使用“同行评审”一词来描述医生在与医疗补助计划相关的专业标准审查组织(PSRO)下对彼此诊疗行为的评估;这一直是《美国医学会杂志》在20世纪70年代最常使用的短语。"医生 Irvine H. Page在1973年为《美国医学会杂志》撰写的一篇社论中解释说:"同行评审对不同的人意味着不同的东西。"对大多数美国医生来说,它意味着PSRO;对英国上议院来说,它意味着贵族们审查其他贵族是否道德败坏;而对科学界来说,它意味着输入资助决定的研究小组和理事会"。值得注意的是,期刊评审并不在Page提供的定义之列,《美国医学会杂志》直到1981年才使用 "同行评审 "一词来指期刊评审。
Franz J. Ingelfinger是《新英格兰医学杂志》颇具影响力的编辑,他是最早将期刊评审称为“同行评审”的人之一。1968年,Ingelfinger应邀为《柳叶刀》撰写了一篇关于医学期刊宗旨的评论文章。他写道:"文章要想被接受,必须通过同行评审,理想的情况是要么以优异的成绩通过,要么必须经过适当的修改"。直到1970s,这个词才再次出现在《柳叶刀》上。Ingelfinger也是第一个在《科学》杂志上使用 "同行评审 "这一术语的人,他是在1970年一篇关于医学文献现状的文章中使用这一术语的。在 1970 年一篇关于《新英格兰医学杂志》审稿流程的文章中,一位编辑部成员(很可能是Ingelfinger)写道,该杂志试图通过 "对提交的文章进行'同行评审',由编辑及其顾问对评审结果进行最终权衡,以保持质量和完整性"。1977年,生物学家Thomas Jukes(加利福尼亚大学伯克利分校的一名英国人,《自然》杂志的一名固定专栏作家)是《自然》杂志第一位将期刊评审称为"同行评审"的作者。
从"评审"到"同行评审"的转变,不仅仅是一种语言上的好奇。将期刊或资助机构的外部评审称为"同行评审",规定了对论文或资助提案的评价只能由专家——提交论文者的同行——来完成。这一新术语缩窄了合格评审人的范围,并暗示那些没有科学背景的人没有资格评价相关工作。此外,这一术语的转变显然源自美国。《自然》杂志的一位撰稿人Lord Zuckerman在1972年写给通讯专栏的一封信中提到"美国人所说的'同行评审'";这意味着许多人认为这个词是美国式的。
战后美国科学资助机构
二十世纪末的美国似乎是了解“同行评审”是何时、以及如何被视为科学核心的关键背景。美国科学资助方式的变化为了解其原因提供了一条潜在的线索。1948年至1953年间,美国联邦政府的科研经费在扣除通货膨胀因素后增加了25倍。1940s,随着冷战紧张局势的加剧,很少有美国人对科研经费提出质疑;对许多立法者和纳税人来说,苏联人可能在科技领域领先于美国人的想法,似乎足以证明任何开支都是合理的。然而,后-Sputnik时代那种强烈的焦虑很快就消退了,早在1960s中期,立法者和分析家们就开始质疑,政府对科学的资助是否产生了理想的结果。1966年,美国国防部(DOD)发布了Project Hindsight报告,研究了国防部资助的科学研究的成果。报告的结论是,虽然应用研究以新军事技术的形式产生了巨大效益,但国防部对基础研究的投资却没有产生类似的进步。该报告导致许多决策者质疑军队和政府在基础研究方面的支出。
此外,还有人质疑NSF和NIH等机构是否合理使用资金。1960s初,来自北卡罗来纳州的民主党议员Lawrence H. Fountain表达了NIH资助管理不善的担忧。Fountain在审查了一些NIH的资助申请后,发现科学家可以在未经NIH批准的情况下,调整他们的资助预算,这让他感到震惊。他要求对NIH的财务状况进行更仔细的审查,声称大量资金被转用于非研究支出。
Fountain的调查使他与NIH院长James Shannon发生了冲突。Shannon是一位自信、彬彬有礼的生理学家,成名很早,在纽约大学医学院担任研究员时就已经声名鹊起。起初,Shannon似乎同意对某些资助进行更严格的监督,并同意考虑制定新的监督规则。然而,NIH在实施任何改革方面都进展缓慢。1962年3月,深感挫败的Fountain牵头组建了小组委员会,评估NIH的改革进展,并召集Shannon作证。
在听证会上,Shannon表现得不屑一顾,甚至有些傲慢。他向委员会保证,资助获得者"是在科学同行严格筛选的基础上选出来的","随后所有与调整预算等有关的行政行为,与这一基本的筛选过程相比,基本上都是微不足道的。"他坚持认为,科学家本身就是如何使用资助的最佳评判者,科学界的内部运作自然可以防止欺诈或过度要求。在Shannon看来,NIH的内部资助审查程序选择了最优秀的科学申请人,这足以保证资金以负责任的方式使用。
然而,Fountain委员会的调查显示,至少有一家接受者确实存在资金管理不善的问题。NIH向一家名为"公共服务研究公司"的私人公司提供了几笔资助。在他们所需的会计文件中,公共服务研究公司列入了几笔严格意义上与研究无关的开支、例如招聘人员的资金以及搬迁和装修公司办公室的资金。NIH的政策不允许将这些费用记入研究基金,但这一违规行为显然没有被注意到,也没有妨碍公共服务研究公司获得更多的基金。虽然没有人指责该公司蓄意欺诈,但就连Shannon主任也不得不承认,公共服务研究公司滥用了拨款,而且在Fountain的审计揭露这些问题之前,美国国立卫生研究院就应该注意到这些问题。
委员会就NIH的评审程序向Shannon提出了大量问题,要求他向他们介绍NIH究竟是如何选择提案的。质询结束后,他们似乎得出结论:NIH通过内部评审选择资助的方法很平常,也没有问题。相反,Fountain和他的支持者把问题归咎于NIH的会计制度。Fountain得出结论,NIH的资助支出应该受到更严格的监督,受赠人在改变预算之前必须获得批准,他还召集他的财政保守派同僚通过立法,要求NIH的受赠人更精确地核算他们的支出。其结果是,NIH的受赠者采用了新的、严格得多的会计做法,NIH也进行了重大重组。资助后的会计工作不再由研究资助部门负责;相反,一旦资助到位,所有支出将由一个新的独立的资助管理部门负责监督。
值得注意的是,尽管听证会上许多人都认为公共服务研究可能不应该获得多项资助,但没有人建议NIH应该重新考虑其资助审查方法。他们只是认为应该更严格地监督资助的会计核算。NIH的内部审查仍被认为是一种可接受的方法,听证会记录中也没有出现评审人一词。对外部评审的使用不足还没有成为批评的焦点。然而,这种情况很快就会改变。
70年代的NSF争议
事实证明,1970年代是美国政府科学资助更加脆弱的时期。冷战进入缓和期,美国与苏联之间的紧张关系暂时缓解。这削弱了增加科学经费的最关键论点。此外,随着越南战争的争议越来越大,科学家与军方之间的关系也受到了审查。许多大学校园里的反战人士抗议那些持有大量军方合同的院系和研究机构,在某些情况下,他们还说服大学切断与专门从事军事工作的研究机构的正式联系。越来越多的科学家也对 “军事-学术-工业”复合体的力量表示担忧;一个名为“科学为人民服务”的组织在1970s初扰乱了美国科学促进会(AAAS)的几次会议,大声斥责与军方有关系的发言人(如美国科学促进会当选主席、钚的发现者Glenn Seaborg),并谴责某些新科学理论的政治色彩,其中最著名的是社会生物学。
与此同时,美国经济正面临重大挑战。石油危机与滞胀期的结合,导致了普遍失业、实际工资下降,以及众多组织预算限制。例如,《科学》杂志为应对美国科学学会(AAAS)会费减少和纸张价格上涨,采取了严格的页数限制措施。面对税基减少和普遍的经济焦虑,联邦政府面临着削减预算的巨大压力。所有这一切营造了一种环境,使两党议员都有理由质疑政府在科学研究方面的支出。1975年,两名共和党众议员和一名民主党参议员对国家科学基金会提出了严厉批评。
众议员John Conlan(亚利桑那州共和党)、众议员Robert Bauman(马里兰州共和党)和参议员William Proxmire(威斯康星州民主党)对国家自然科学基金的预算和资助程序提出质疑的理由各不相同。Conlan是基督教右翼的第一波成员,当时正准备竞选参议员,声称自己是社会保守派,将把基督教价值观带入政府服务中:美国国家科学基金会资助的两项课程在亚利桑那州的社会保守派中一直存在争议:"人,一门学习课程"(MACOS)和"个性化科学教学系统"(ISIS)。MACOS是社会科学课程,涵盖了不同动物的社会习性,也讨论了奈茨里克爱斯基摩人;批评者指责该课程宣扬道德相对主义,关注动物间的暴力、乱伦和食人行为。
在国家科学基金会1976年拨款申请的听证会上,Conlan尖锐地批评了这两个项目,并质疑国家科学基金会的预算支出是否符合美国公众的利益。Conlan很快在共和党的后起之秀Bauman身上找到了盟友。Bauman是小政府的倡导者,也是美国保守派联盟的创始人,他开始推动国家自然科学基金会加强财政问责制。最终,他对1976年国家科学基金会的资助要求提出了一项修正案,要求国家科学基金会的资助项目接受国会的批准。修正案获得批准,并被纳入拨款法案。
然而,引起最大的公众轰动的,是Proxmire对国家科学基金会的批评。1957年,Proxmire在特别选举中获胜,接替刚去世的Joseph McCarthy,进入参议院。他的参议员生涯漫长而多彩,在许多有争议的问题上坚持原则、固执己见。他是越战的早期反对者,竞选财务改革的早期倡导者,也猛烈批评任何他认为是浪费的开支。
1975年3月,Proxmire开始颁发金羊毛奖,由他每月向他眼中最浪费纳税人钱的政府项目授予荣誉徽章。从1975年3月起,Proxmire每月都颁发金羊毛奖,直到1988年他在参议院退休。前两次金羊毛奖都颁给了国家自然科学基金项目。3月,Proxmire把奖项颁给威斯康星大学一项关于人际吸引的社会学研究。"我相信,还有2亿美国人想让生活中的某些事情保持神秘,而在我们不想知道的事情中,最重要的就是男人为什么会爱上女人,反之亦然,"Proxmire宣称。"所以,国家科学基金会——从爱情的漩涡中解脱出来吧"。4月获奖人是心理学家Ronald Hutchinson,他研究了人类、老鼠和猴子在压力下紧咬下巴的原因。" Proxmire说:"资助这种无稽之谈让我几乎气得要尖叫、踢人,甚至咬紧下巴。"这位好医生从他的猴子身上赚了一大笔钱,在这个过程中,美国纳税人也成了他的猴子"。
Proxmire的"金羊毛奖"赢得了媒体的广泛报道,抱怨这些研究的信件开始涌入国家自然科学基金办公室。Proxmire则将国家自然科学基金会作为金羊毛奖最喜欢攻击的目标,坚持认为该组织资助的都是对美国人民毫无用处的无聊浪费项目。学校课程的争议——尤其是对 MACOS 的批评——也得到了媒体的大量报道。
但是,这场争论并不只是在媒体上进行。国家科学基金会、Proxmire、Conlan 和 Bauman 之间互通了数十封信函,因为这三位议员希望进一步了解有关国家科学基金会特定资助的信息。到1975年3月,争论变得如此激烈,以至于国家科学基金会主任 H. Guyford Stever宣布,"在我们对 MACOS 或任何其他大学预科科学课程开发进行彻底研究之前......","不会再批准任何资金"。......直到我们对国家科学基金会在这些领域的工作进行彻底审查,并向国家科学委员会和国会报告并提出建议"。这一决定并没有让Conlan感到满意,他决心了解国家科学基金会是如何决定资助ISIS 的,当基金会拒绝向他提供资助的同行评审报告副本时,他感到非常沮丧:"我想再次提醒,我是国会负责监督NSF的委员会成员。因此,我再次要求,请按我的最初要求,提供同行评审人的意见——原始完整的意见,而不是转述的意见"。
然而,国家自然科学基金委员会的领导人认为,同行评审取决于评审人的匿名性,并表示国家自然科学基金委员会没有义务向包括国会议员在内的任何人披露这些报告。在给Conlan的信中,Stever声称,评审人报告是根据"隐含的保密承诺 "提交的,"成千上万的评审人都理解并接受这一承诺",公开报告文本或评审人姓名将构成背信弃义。在后来的一封信中,他争辩说,对国家自然科学基金匿名评审人政策的任何改变都与同行评审的概念本身相抵触:
美国国家科学基金会和其他机构的同行评审制度所依据的一项基本原则是,对基金会就资助申请所征求的意见和提出这些意见的评审人的身份保密。如果改变了这一保密原则,那么在评估申请书价值时借鉴全国杰出科学家和教育工作者的智慧和知识的整个过程就会因此而改变。
随着冲突的发展,保密问题将继续成为国家科学基金会与其批评者之间的争论焦点。
“隐含的保密承诺”这一谨慎的措辞表明,给NSF评审人员的指示并不总是明确承诺报告将被保密;然而,Stever对Conlan的答复符合NSF的内部政策。国家科学基金会与资助申请者和国会议员的通信中经常提到,国家科学基金会的惯例是不披露评审人报告的全文或评审人的姓名。"国家科学基金会总法律顾问Charles F. Brown对一位心怀不满的申请者说:"[评审人]是自愿无偿服务的公民,他们往往花费数小时的时间来评审申请书。"如果公开评审人的姓名,评审人可能会受到主要研究人员的骚扰或纠缠"。
NSF听证会:科学自主与公众问责之争
关于国家科学基金会资助决定的公开辩论和幕后争论,最终结果是1975年7月在科学、研究和技术小组委员会举行了国家科学基金会同行评审特别监督听证会。Bauman、Conlan和Proxmire不是委员会成员,但应邀在听证会上作证,NSF主任 H. Guyford Stever和副主任Richard Atkinson也在听证会上作证。十多位科学家、社会学家和其他学者也应邀就他们对同行评审的看法作证。听证会产生了近 1200 页的记录稿和补充文件。这些记录不仅讨论了国家科学基金会特定评审程序,还讨论了同行评审的概念本身——其结果、理想形式及其在科学实践中的作用。
关于国家科学基金会审查程序的讨论主要集中在两个关键点上:第一,应该用什么标准来选择提案;第二,应该在多大程度上重视评审人对提案的意见。在提问过程中,Bauman和Conlan都承认,他们之所以对国家科学基金会感兴趣,是因为担心一些获得资助的提案对美国公众无益。Bauman辩称,"我们在这里处理的是在经济非常困难的时期违背人们意愿以纳税形式从他们手中拿走的有限数量的钱,这些钱被一个联邦机构花掉了,而且花掉的方式现在受到了质疑",国家科学基金会"必须证明它是在以一种审慎的方式使用税款,以一种纳税人可以预期一些回报的方式进行研究"。
Conlan的抱怨更为集中;他的大部分证词都集中在对MACOS和ISIS的反对上,以及他对国家科学基金会拒绝向他提供完整的、逐字记录的评审报告的不满。Conlan将国家自然科学基金委员会的同行评审制度描述为一个秘密的过程,允许项目主任获得他们想要的任何决定:"先生们,这是一个令人惊异的系统,在这个系统中,各个项目经理被赋予了选择同行评审员的全权,[这是]一个完全武断的系统,它是封闭的,对科学界和国会不负责任,这是科学界的常识,NSF项目经理可以从同行评审系统中得到他们想要的任何答案。
然而,Conlan对国家科学基金会的批评并不意味着全盘否定同行评审概念。相反,他反对的是,国家自然科学基金委员会的评审制度把决定提案质量的权力给了主任们,而不是评审人员。Conlan说,由于国家科学基金会以外的任何人都不得查看报告,科学家和国会议员都无法证实国家科学基金会的工作人员是否听取了评审人的意见。Conlan称,国家科学基金会的项目经理有时甚至会歪曲他们的推荐人的意见。他讲述了与同行评审人之一、麻省理工学院的Philip Morrison的一次谈话,报告说Morrison对该提案提出了非常严厉的批评,并对该提案获得资助感到惊讶。
因此,Conlan提出,他和国会同事的批评在捍卫的是合适的同行评审行为。应该相信评审人,而不是评审主任,来决定哪些提案最值得资助——如果所有国家科学基金会的报告都能公开,那么国家科学基金会的项目官员就不能轻易操纵或贬低其内容。因此,他认为所有同行评审报告,无论是资助的还是未资助的,都应向国会和资助申请者公开。Conlan认为,这将阻止国家科学基金会再发放任何有问题的资助:"如果同行评审和国家科学基金会的资助管理是公开的,我认为错误的资助方法、或不可取或不称职的资助将自行解决"。Conlan还建议向申请人公布评审人的姓名,认为这将促使评审过程更加客观:如果评审人的姓名公开,他们会更加努力地做到公正。
不出所料,国家自然科学基金领导层针对保密和任人唯亲的指控为基金会进行了辩护。Stever极力维护项目官员的作用,认为他们的专业知识和专业精神对国家自然科学基金的工作至关重要。然而,他说:"基金会的内部做法,可以确保其专业工作人员,无论多么称职,都不得私下代表基金会做出决定"。Stever认为,"金羊毛"和课程设置的争议,并不是国家自然科学基金审查程序的缺陷,而是公众期望与科学现实之间的差距。"他说:"社会对科学的期望越来越高。"其中一些期望是合理的,但也有一些是不合理的,即期望在比以往任何时候都更快的时间内取得神奇的成果。Stever说,由于科学研究的效益并不总是立竿见影或显而易见的,因此基金会认为应根据科学的质量来评判提案。"他坚持说:"基金会从不支持无意义的研究。"科学卓越性是国家科学基金会支持的首要标准"。
Stever和Atkinson认为,根据科学卓越性来选择提案的唯一方法,是通过同行评审程序,将提案交到最有资格了解科学卓越性的人手中。Stever解释说,基金会"在建议支持或拒绝某项具体提案之前,会咨询相关专业或学科的科学界专家"。Stever一再坚持,这些同行只有在身份保密的情况下才能提出坦诚的建议;否则,评审人员可能会担心,如果他们不支持特定的提案,尤其是那些由本领域资深同行提出的提案,会遭到职业报复。
国家自然科学基金委员会的批评者和辩护者在国家自然科学基金委员会本身的评审程序是否做得好的问题上意见不一,但在许多方面,他们对同行评审本身的说法却非常相似。Bauman、Conlan和Stever都认为,同行评审至关重要,在决定哪些国家自然科学基金项目应该获得资助时,应该充分考虑评审人的意见——事实上,Conlan的主要批评意见是,国家自然科学基金对评审人的意见重视不够。不过,Conlan和Bauman都认为,如果国家科学基金会的同行评审员的身份被公开,他们就可以开展最重要的工作。Stever坚决不同意,他认为如果评审人必须在报告上署名,他们可能会面临压力,不得不对特定提案给予好评。只有当评审人知道他们将保持匿名时,他们才能自由地发表意见。他的评论既把评审人描绘成为科学无私奉献、不求回报的人,也描绘为可能的屈服者,如果他或她的身份被人知晓,他或她可能会屈服于外部压力。NSF的批评者和支持者之间的主要分歧是匿名性。国家自然科学基金委员会的领导人支持匿名同行评审,因为他们认为,只有这样才能确保提案得到坦诚、准确的反馈。而立法批评者则认为,国家科学基金会的决定应该对立法者、纳税人和申请资助的科学家更加透明。换句话说,国家科学基金会的首要任务是确保科学的卓越性;而批评者的首要任务则是使这一过程对公众负责。
我们要的太多:同行评审局限性
然而,在1975年的听证会上,并不是每个人都相信同行评审能确保科学的卓越性或对公众负责。美国科学院执行干事威William D. Carey认为,国会和国家科学基金会对同行评审的要求可能过高。他告诉委员会,同行评审“并不是万无一失的程序,也不应该被看的过于神圣,似乎可以消弭分歧。” Carey赞同的是将国家科学基金会同行评审报告作为顾问文件的旧制度。他说:"同行评审作为第一轮提案筛选有其用途,但它并不能免除政府项目经理决定资助或拒绝提案的全部责任。我们不应要求同行评审让政府机构在保护公共财政的问题上脱钩"。
然而,对同行评审持最消极看法的却是 Proxmire。他在提交的证词中写道:"我收到了许多信件,指出同行评审制度的作用是使既定的人物、思想和机构的资金来源永久化。Proxmire似乎对同行评审除了"乱伦"之外的其他作用不抱什么希望。他认为,国家科学基金会的评审人员会青睐那些在同行评审期刊上发表过研究成果的提案,而同行评审期刊也会看好那些曾获得过国家科学基金会资助的文章,"当我们意识到一个科学领域的许多顶尖研究人员都曾是国家科学基金会资助的获得者、国家科学基金会资助的评审者,最后又是其技术期刊的编辑时,我们就完全明白了"。
但有趣的是,在国家科学基金会官员的证词中,几乎没有讨论同行评审的任何局限性。几乎所有参加1975年听证会的人士都认为,同行评审是评估基金的适当机制。参加听证会的人认为,同行评审是"公平有效的制度",是"资金分配决策过程中不可或缺的组成部分",是"'科学方法'不可分割的特征"。
小组委员会主席James Symington似乎总结了听证会对同行评审的态度,他说"绝大多数证人都认为,应该继续使用某种形式的同行评审来协助科学研究的资金分配。可以肯定的是,包括国家自然科学基金委员会在内的任何证人,都没有宣称基金会的同行评审制度及其决策能力是完美无缺的。尽管如此,作为工作的基础,同行评审的概念似乎被认为是基本合理的。"同行评审"在1960s一词才刚刚开始出现;到1975年,就已被视为美国科学知识创造的核心。
同行评审"基本合理"的信念强烈地影响了国家科学基金会的反应。最重要的是,Stever在听证会上宣布,自1976年1月1日起,申请人将收到完整的、逐字记录的评审人报告副本,但评审人的姓名将被删节。他认为,让评审人匿名是确保他们坦率和廉洁的唯一方法,但他提出逐字报告是一种妥协。
Stever和Atkinson还表示,今后国家科学基金会在决定资助哪些资助项目时,将更多地依靠同行评审,而较少依靠国家科学基金会工作人员的判断。一个新的审计办公室将确保在决定资助时,对推荐人的正面和负面报告给予适当的重视。最后,国家科学基金会委托兰德公司(RAND Corporation)就其同行评审程序撰写一份报告,以更多地了解科学家对其有效性和公平性的看法。与此同时,尽管NIH没有直接参与1975 年的争议,但NIH的领导层——包括新任院长Donald H. Fredrickson——密切关注着这场辩论。为了应对这场轩然大波,NIH采取了一些预防措施来改革自己的同行评审制度。1975年至1978年间,NIH 逐步让外部评审人员在决定资助哪些拨款提案方面发挥更重要的作用。与NSF一样,NIH也开始向申请者提供更详细的建议意见。
值得注意的是,国家科学基金会和美国国立卫生研究院的改革都更加重视外部评审人的意见。这与1960s的NIH听证会形成了鲜明对比。1962年,即使美国国立卫生研究院的资助受到抨击,也很少有人质疑该院的内部评审制度。然而,1975年,国家科学基金会的员工有权决定资助哪些提案的权力成为了批评的焦点。资助机构的员工都是带有偏见的个人;而同行评审则可以信赖,可以回答什么是好的科学,什么不是。匿名评审人的判断可以代表整个科学界的判断。个人不可信,但同行评审制度可信。因此,同行评审从一个可有可无的官僚程序上升为一个确保科学质量和可信度的系统。
结论
1975年国家科学基金会听证会的结果很少有人完全满意。美国国家科学基金会的教育项目被大幅缩减,MACOS和ISIS的经费也基本被取消。然而,Conlan和Bauman并没有得到他们所主张的国会对国家科学基金会拨款的监督,Bauman修正案也被从国家科学基金会的拨款申请中删除。此外,国家科学基金会的改革并不像看上去那么全面。1980s,NSF 将其评审程序的名称从 "同行评审 "改为 "择优评审",强调除科学卓越性外,决策过程中还将考虑其他因素(如国家利益)。
1975年同行评审争议值得关注的原因是,它们影响了对公众对同行评审的概念,而非资助机构实际评审工作。听证会为不同立场和观点的利益相关者提供了辩论同行评审目的的场合。听证会上出现的一个普遍(尽管不是一致)共识是,国家科学基金会——以及任何其他组织——必须依靠外部评审人来正确评判"好的科学"。在听证会上,同行评审被视为对科学工作方式至关重要的过程,为了使科学在未来正常工作,必须保留和捍卫这一过程。这种对同行评审的看法一直存在并不断扩大,导致了像将希格斯玻色子称为“真正的科学”这样的标题。
然而,Carey和Proxmire对同行评审的担忧也一直存在。事实上,同行评审似乎正处于危机时刻。近年来,一些备受瞩目的论文通过了同行评审,却在发表后遭到猛烈抨击,或被指控造假而撤回。一些关于同行评审结果的研究表明,女性和代表人数不足的少数人与同事相比,同行评审更有可能收到不利的评审报告。其他观察家则认为,目前的同行评审程序压制了创新研究,从而导致公众认为大多数科学研究都是无关紧要的。2011 年,英国下议院委托编写了一份关于同行评审现状的报告,并得出结论认为,虽然同行评审 "对科学研究的声誉和可靠性至关重要",但许多科学家认为该制度会扼杀进步,而且往往存在偏见,"几乎没有确凿证据证明其有效性"。
同行评审的理想与现实之间也存在很大差距。尽管同行评审制度据称应决定哪些成果可以发表和获得资助,但资助机构的项目官员仍然决定着其组织所支持的科学类型,期刊编辑仍然对其期刊中出现的内容拥有巨大的权力。一些科学家怀疑系统的同行评审是否仍然是评估科学研究的最佳方法,并认为可以取消同行评审,而不会对科学文献的质量造成多大影响。
同行评审的很多结果让科学家和普通人都倍感失望:创新论文无法发表在顶级期刊上,资助机构只资助功成名就的科学家,而年轻科学家更有抱负的工作却得不到资助。许多关于同行评审结果的抱怨都倾向于假设,同行评审应该准确无误地区分好科学和坏科学。但这并不是评审最初设计的目的。同行评审当前的"危机",可以说起源于1970s的这一时刻,当时这一程序被视为评估科学质量的唯一可接受的方法。我们对同行评审的期望越高,它令人失望的机会就越多。同行评审遭到怀疑,其根源可能在于现代人对评审的期望,与同行评审设计之初较为温和的目标功能之间的差距。
本文2024年10月21日发表于微信公众号 瀚海之因(同行评审:远非“自来如此”),风云之声获授权转载。
■ 扩展阅读
Paul Romer:论进步的可能性 | 瀚海之因
诺贝尔:一意孤行的最富有流浪汉 | 瀚海之因
从网络游戏起家的科学突破 | 瀚海之因
科学的发展在放缓吗? | 瀚海之因
新型资助模式:Scout Program,让科学家成为“天使投资人” | 瀚海之因
新型科研机构:“迷你曼哈顿工程”的FRO | 瀚海之因
■ 译者简介
田江雪
原腾讯可持续社会价值副总裁,新基石科学基金会创始成员,瀚海之因科学慈善智库创始人
风云之声
科学 · 爱国 · 价值
来源:袁岚峰一点号