大道至简VS多者异也,物理有机化学通往何处?

B站影视 港台电影 2025-03-19 09:40 1

摘要:冯·诺依曼曾说:“四个参数就能拟合出一头大象,五个参数就能让大象的鼻子动起来!”这话意在批评对数据的盲目拟合,强调物理图像的重要性。而另一方面,AI凭借海量参数在科学领域大显身手,大规模计算有望产生远超经验范式的理论归纳能力。是追求化繁为简,还是承认多者异也?

冯·诺依曼曾说:“四个参数就能拟合出一头大象,五个参数就能让大象的鼻子动起来!”这话意在批评对数据的盲目拟合,强调物理图像的重要性。而另一方面,AI凭借海量参数在科学领域大显身手,大规模计算有望产生远超经验范式的理论归纳能力。是追求化繁为简,还是承认多者异也?这两种截然相反的研究思路,恰好贯穿了物理有机化学近百年的历程。

绘图:青骑士

撰文 | 郑超(中国科学院上海有机化学研究所研究员)

前情提要:在上篇文章《一场勉强通过的答辩,让化学翻过“最黑暗的篇章”》中,从威廉米到范特霍夫和阿伦尼乌斯,物理化学家经过近半个世纪的探索,终于在化学动力学的迷宫中找到了一条路线图,开创了利用物理图像支撑数学方程、研究化学反应的范式。化学反应是复杂的,那么描述化学反应的数学方程应该具有怎样的形式呢?

化繁为简:线性自由能关系

阿伦尼乌斯公式给出了温度对反应速率常数的影响规律,是化学动力学发展史上的一座里程碑。然而温度终究只是影响化学反应的外部因素,想细致刻画和深入理解化学反应,特别是纷繁复杂的有机反应的动力学特征,还是要从物质的微观结构和反应进程的细节等内因着手。化学反应是由原子外层电子的重新排布引起的,而电子的运动遵循量子力学。虽然量子力学的理论大厦已经在20世纪20年代建立起来,但是化学反应的复杂性给它的应用造成了巨大的障碍。正如量子力学奠基人之一狄拉克(P. A. M. Dirac)所言:全部化学所包含的数学规律已经完全清楚,困难只是在于应用这些规律所得出的方程无法求解。以英国人英戈尔德(C. K. Ingold)和鲁宾逊(R. Robinson)为代表的有机化学家没有“束手待毙”。他们吸收了量子力学中关于原子共享外层电子形成化学键的基本思想,在20世纪30年代构建出一种定性理论,用点、线和箭头组成的“图案”描述有机反应中的电子转移;同时与有机化学的传统观念相衔接,用诸如诱导效应、共轭效应和位阻效应等形象的语言,概括有机分子结构对于反应活性和选择性的影响。“运用之妙,存乎一心”。尽管对初学者而言,理解并接受这套形式逻辑可能颇费踌躇,但是在有机化学“武林高手”眼中,以此为基础演绎出的“反应机理(reaction mechanism)”足以在纸面上解读一切有机反应。

L. P. Hammett (1894~1987)

然而,依靠形象化语言定义的概念往往是含混模糊的。无论是诱导效应、共轭效应,还是位阻效应,它们的物理本质都是电磁相互作用。在分子世界中划分出林林总总“效应”的依据和目的,只是为了方便人类化学家的理解和使用。能否找到一条途径,把模糊但是对人类友好的概念定量化,用远比量子力学简单的数学方程来关联分子结构和反应性质呢?几乎与英戈尔德和鲁宾逊的工作同时,在大西洋对岸,美国哥伦比亚大学的哈米特(L. P. Hammett)展示了一种化繁为简的可能性。他通过巧妙的理论设计将相互纠缠的复杂影响因素解耦,仅用一元线性函数就解决了一系列典型有机反应的动力学问题!

哈米特是一位少有的关心有机化学问题的物理化学家,他最重要的贡献就是联通这两门差异极大的化学二级学科。1940年哈米特出版了《物理有机化学:反应速率、平衡和机理》,开启了这个新兴领域的研究热潮。哈米特发明了一种酸度函数,用来表征普通pH值无法衡量的浓酸溶液的酸性强弱。哈米特酸度函数的基础是一组含有不同取代基的苯胺分

不同取代基的苯甲酸的电离过程:

(16)

(16)式中左右两侧分别是引入取代基X所造成的化学反应r的活化吉布斯自由能的变化,和化学平衡a的反应吉布斯自由能的变化。这便是物理有机化学的一条重要法则——线性自由能关系。它预言(在一些情况下)原料分子的结构变化,如引入取代基X,对于化学反应热力学(平衡)和动力学(速率)的影响是成比例的。哈米特方程是线性自由能关系最重要的实例。

线性自由能关系不是能够从第一性原理导出的严格结论,而是一条经验规则。尽管如此,它仍然具有十分重要的意义。正如哈米特本人所指出的:线性自由能关系的存在带来一个令人欣慰的事实——即便无法找到理论依据来说明化学反应的简单性,也不必因此认为化学反应是无可救药的复杂(hopelessly complicated)。虽然化学家们通常愿意通过“熵焓互补”等化学图像来解释线性自由能关系,但是这种线性关系背后有更加本质的数学内涵。假定反应活性fr是由取代基性质σ唯一决定的函数,那么只要这个函数关系不是“无可救药的

图3. Hammett测定的常见取代基的σ参数(左)、部分有机反应的ρ值(中)以及第一幅线性自由能关系图(右)。图片来源:J. Am. Chem. Soc. 1937, 59, 96.

因此,如果某种线性自由能关系对一类有机反应成立,则意味着在该类反应中存在一定的取代基性质,对反应动力学起着确定性作用。对于哈米特的σ参数而言,它所刻画的取代基性质,大体上可以理解为诱导效应与一部分共轭效应的加和。哈米特在建立σ参数的过程中没有考虑苯甲酸邻位(o)的取代基,正是因为他意识到,邻位取代基的位阻效应对苯甲酸的电离平衡有不可忽视的影响。把它们排除在外,也就拆分了位阻效应与诱导/共轭效应,达成了用最简单的一元线性函数描述反应速率常数变化规律的目的。

哈米特的开创性工作引领了将有机化学参数化、定量化的第一波历史潮流。他的追随者们提出了种类繁多的取代基参数,有的专门刻画取代基的位阻效应或者共轭效应,有的专门面向某种特定反应类型,还有的专门用于描述溶剂的性质……这些取代基参数为有机反应的机理研究提供了崭新的工具。有了它们,有机化学家就能够使用动力学实验(通常是测定一系列相似反应的速率常数之比)弥补谱学表征手段的不足。透过哈米特方程中ρ值的正负和大小,能够窥探反应中难以分离鉴定的瞬态中间体的结构特征。例如著名的“非经典碳正离子”,最早就是由美国加州大学洛杉矶分校的温斯坦(S. Winstein)等人,在2-降冰片基苯磺酸酯的溶剂解反应的动力学实验中观察到反常结果,从中推断出来的。以哈米特方程为代表的线性自由能关系,在今天仍是有机化学专业高年级本科生和研究生课程的必修内容。对于整日在通风橱前“搬砖”的有机化学研究生来说,如果你能亲手测出一条类似图3的哈米特图(Hammett plot),那一定是一个令人愉悦的美好时刻!

在线性自由能关系这一研究领域,中国科学家也做出了杰出的贡献。中国科学院上海有机化学研究所蒋锡夔先生领导的物理有机化学研究团队,于20世纪80年代至90年代在国际上

计国桢先生姓氏拼音的缩写)。自由基是有机反应中的一类常见中间体,和碳正离子、碳负离子、单线态卡宾等闭壳层中间体不同,自由基物种具有未成对电子,因此存在闭壳层物种不具备的自旋离域效应。如何定量评价取代基性质对自由基自旋离域效应的影响,是物理有机化学与自由基化学交叉前沿的重要科学问题。蒋锡夔等人巧妙地使用双参数线性自由能关系对此给出了答案。

蒋锡夔出身金陵名门,自幼接受了良好的教育。从上海圣约翰大学毕业后,他于1948年赴美留学,1952年获得华盛顿大学博士学位。1955年蒋锡夔放弃美国企业的高薪职位,冲破重重阻挠回到新中国。回国后,他先后在中国科学院化学研究所和上海有机化学研究所工作。在美国凯劳格公司(The M. W. Kellogg Company)工作期间,蒋锡夔发现三氟氯乙烯可以与三氧化硫反应生成β-磺内酯,推翻了多氟乙烯不能发生亲电反应的传统认知。这一反应为后来一系列含氟功能分子的合成奠定了基础。得益于在含氟烯烃化学领域的深厚积累,蒋锡夔在60年代领导了我国氟橡胶的研究工作,制备了多种氟橡胶产品,打破了西方国家对这一关键军用物资的封锁,为我国的国防工业做出了贡献。在氟橡胶的研制过程中,蒋锡夔发现三氟苯乙烯在加热条件下会发生二聚反应,生成二苯基六氟环丁烷,并且反应经历了1,4-双自由基中间体。蒋锡夔从这个源自应用研究的发现出发,依靠敏锐的学术洞察力和坚持不懈的努力,做出了国际公认的基础研究成果。

图4. (左)蒋锡夔先生关于自由基自旋离域参数σJJ的第一篇论文;(右)蒋锡夔先生(右二)和助手们讨论工作,右一为计国桢先生。图片来源:《化学学报》,1984年,第42卷第6期,599页(左);参考文献29(右)

长期以来,学术界对于如何区分极性效应和自旋离域效应对自由基反应活性的影响,一直存在争议。文献已报道的取代基参数都无法正确描述自旋离域效应的贡献。蒋锡夔意识到,三氟苯乙烯的二聚反应是研究取代基性质对自由基反应活性影响规律的绝佳平台。他提出了在同一个反应体系中完全拆分极性效应和自旋离域效应的方法。首先记录对位带有

得到国际物理有机化学同行的广泛认可。2002年,蒋锡夔领衔的科研项目《物理有机化学前沿领域两个重要方面——有机分子簇集和自由基化学的研究》荣获国家自然科学奖一等奖。这是该奖项连续空缺四年后再度颁发,也是有机化学基础理论研究成果首次问鼎国家最高科技奖励。

多者异也:拥抱无形的方程

哈米特方程之所以在有机化学中被广泛使用,不仅因为它的数学形式简单,更在于它将复杂的反应动力学问题归因于符合化学思维的单一变量,为化学家理解和调控反应活性提供了信心和依据。沿着这条思路,如果化学知识告诉我们,某类反应的动力学行为受两个独立因素共同影响,那么建立双参数回归方程就是非常自然的选择,正如我们在自由基自旋

(19)式中的下标F/x/a/R分别代表场效应、诱导效应、极化效应和共振效应。但是,这种处理方式会让我们陷入进退两难。因为增加参数必然会牺牲方程的化学图像,降低模型的可解释性(正如在阿伦尼乌斯公式确立之前,众多k ~ T关系式所遇到的问题),同时又会带来“过拟合”的风险:即使最终结果在数值上非常准确,也可能很难分辨所拟合的方程究竟是正确描述了科学规律,抑或仅仅记录了有偏数据样本造成的假象。

关于数值拟合,著名物理学家戴森(F. Dyson)晚年曾讲过一个有趣的故事。1953年,戴森还是康奈尔大学一名年轻的理论物理学者。他利用赝标量介子理论计算了质子与介子的散射截面,结果与费米(E. Fermi)的实验数值非常吻合。戴森喜不自禁,连忙前往芝加哥,向这位前辈展示自己的结果。不料费米几乎没看递上来的手稿,他友好地请戴森坐下,平静地说:“理论物理有两种计算方法。一种是我更喜欢的:计算过程拥有清晰的物理图像。另一种拥有精确且自洽的数学形式。而你的计算两边都不沾。”

戴森在错愕之余还是壮着胆子问费米,为什么赝标量介子理论不是自洽的数学形式。得到解答后,绝望之下戴森又问,他的计算值和实验值严丝合缝,这又怎么讲?费米反问:“你在计算中引入了多少个任意参数?”戴森回答说四个,费米接着讲了一句有名的话:“我的朋友冯•诺依曼(J. von Neumann)曾说,他用四个参数就能拟合出一头大象,五个参数就能让大象的鼻子动起来!”

戴森听懂了言外之意,在结束这项工作后就改变了研究方向。后来他回忆:“短短几分钟,费米礼貌而无情地摧毁了我和学生们埋首多年的研究计划。要不是他,我们可能还要在歧路上徒劳徘徊数年。……五十年后回首往事,我们可以清楚看到费米是对的。解释强相互作用的关键发现是夸克。介子和质子由夸克组成。在盖尔曼(M. Gell-Mann)发现夸克之前,任何关于强相互作用的理论都不可能是充分的。费米对夸克一无所知,在夸克发现前就已去世。但早在20世纪50年代,费米已经意识到当时的介子理论缺少了关键拼图。物理直觉告诉他,赝标量介子理论不可能正确。因此正是费米的直觉,而不是理论与实验的不符,把我和我的学生从死胡同里救了出来。”

图5. 2010年有人实现了用四个复参数拟合出大象的形象,用第五个复参数使大象的鼻子摇晃。图片来源:Am. J. Phys. 2010, 78, 648.

也许是在模型的可解释性和数值拟合的有效性两方面都遇到了“瓶颈”,以线性自由能关系为基础,将有机反应动力学特性参数化、定量化的研究热潮在20世纪80至90年代趋于沉寂。多参数线性自由能方程并没有给物理有机化学带来新的突破。在众多的哈米特型定量构效关系中,最受化学家青睐的仍然是形式最为简单的(15)式,毕竟能够将数学关系“翻译”成合理的化学图像是最令人放心的。但是有机反应的动力学行为终究是一个复杂性难题,单变量线性方程注定无法满足所有场合的需要,破解这一困局必须引入新的思路。1977年诺贝尔物理学奖获得者安德森(P. W. Anderson)在评价凝聚态物理时有一句名言:“多者异也(More is different)”。这句话的本意是说物质结构存在不同的层次,每个层次都会涌现出独特的性质和规律。物质世界的复杂性随着结构尺度的扩大而提升,所以还原论(reductionism)哲学并不能保证建构主义(constructionism)的成功:即使万物运行的现象可以被约化为少数基本粒子的规律,我们也无法仅从这些规律出发重建出整个宇宙。以这个观点看待本征复杂的化学动力学问题,我们是否可以探索一条在某种程度上不同于物理有机化学传统的道路——放弃对直观化学图像的期待,不再追求简明解析的数学关系;同时尽可能多地引入变量,将反应活性fr写成一系列性质参数{σ}的函数

并把选取{σ}和确定f的数学形式等任务都交给数据拟合。这个想法初看起来颇令人不安,毕竟“摇晃鼻子的大象”还历历在目。况且历史上阿伦尼乌斯公式和哈米特方程的成功都是通过摆脱对数据的盲目拟合,在清晰的化学图像指引下实现的。不借助这些指引,有机反应动力学的规律真的能从复杂的数据关系和“无形的方程”中自动涌现出来吗?

J. N. Gray (1944~2012)

2007年1月,在美国加利福尼亚州山景城召开的美国国家研究理事会计算机科学与电讯委员会会议上,供职于微软公司的著名计算机科学家、1998年图灵奖获得者格雷(J. N. Gray)发表了题为“科学方法的革命”的演讲。他在演讲中提出,将科学研究分为四类范式——依次为经验(实验)科学、理论科学、计算科学和数据科学。格雷认为,科学研究的旅程起步于观察和记录自然现象,为了获得更加精确和普适的结果,人们从实验现象中抽象出简化模型,通过数学方程构建出科学理论。当科学理论的复杂性上升到人脑无法应付的程度时,利用计算机进行大规模计算就成为与受控实验和理论推导并立的又一种探索自然的途径。随着计算机算力和算法的不断升级,通过海量数据的收集代替传统的经验观察,借助大规模计算补充人类的思考,有望产生远超经验范式的理论归纳能力,这就是格雷倡导的数据密集型科学发现的“第四范式”。在计算机科学家的身份之外,格雷还是一名航海爱好者。在山景城会议的半个月之后,格雷独自驾驶帆船出海,计划于靠近旧金山海岸的法拉隆群岛抛洒母亲的骨灰,但是未能返航。持续数月的搜寻没有找到格雷和他的帆船的任何踪迹,五年后他被加州地方法院宣告合法死亡。山景城的演讲成为格雷留给世界的学术“遗言”,而第四范式下的科学研究正在他的身后蓬勃发展。

2016年,谷歌旗下的DeepMind公司推出人工智能围棋程序AlphaGo。它将蒙特卡洛树搜索算法和深度神经网络相结合,通过学习人类棋谱和“左右互搏”的自我对弈提升实力,在公开比赛中战胜了当时最顶尖的棋手李世乭和柯洁。2018年DeepMind公司又发布了人工智能蛋白质结构预测程序AlphaFold(AF),并于2020年和2024年上线了其后继版本AF2和AF3。AF程序学习了所有已知蛋白质的氨基酸序列、和已通过X射线晶体学实验测定的蛋白质结构,基于Transformer神经网络预测氨基酸残基之间的距离和相互作用,通过多轮迭代给出目标蛋白质的预测结构,其精度可以与实验结果相抗衡。2022年,DeepMind公司宣称AF2已经预测了超过两亿个蛋白质高级结构,几乎覆盖了所有已知氨基酸序列的蛋白质分子。AF团队的领导者哈萨比斯(D. Hassabis)和江珀(J. Jumper)因为在蛋白质结构预测方面的工作分享了2024年诺贝尔化学奖(该奖项的另一名获得者是美国华盛顿大学的蛋白质设计专家贝克(D. Baker))。

那么,有机反应动力学问题呢?应当注意到蛋白质的一级结构是由一维氨基酸序列完全编码的,其高级结构的形成主要依赖氨基酸残基之间的非共价相互作用。而有机反应涉及化学键的断裂和重组,其过程细节和影响因素远比蛋白质折叠复杂,想要依靠人工智能轻松“拿捏”有机反应动力学可能不会是一蹴而就的(笔者期待被打脸)。尽管如此,这方面的研究正方兴未艾,也屡有成功的结果见诸顶刊。从某种意义上说,这些研究工作算得上是哈米特将有机反应参数化、定量化的努力在新时代的传承和延续,其基本思想都可以用(20)式概括,但是性质参数和函数形式的取材范围都大大拓宽了。不仅仅是哈米特参数σ,所有刻画分子微观几何/电子结构、宏观理化性质的特征,无论是针对基态还是过渡态、无论来源于实验测定还是理论计算,都可以作为描述符使用。在模型方面,从简单的多元线性回归到复杂的贝叶斯优化和神经网络算法,也都能找到用武之地。所拟合和预测的目标也不限于反应的动力学行为,还包括目标产物的收率、选择性,甚至是最优反应条件。再辅以高通量、自动化设备提供的高质量实验数据……有机化学家们正在雄心勃勃地迎接一场关于合成方法学研究范式的变革。

图6. 利用贝叶斯优化算法预测醇的光延(Mitsunobu)反应和脱氧氟代反应结果,并发现多组超越专家经验的最优反应条件。图片来源:Nature 2021, 590, 89.

在乐观的同时仍然需要保持谨慎。不管是以哈米特方程为代表的线性自由能关系还是面向有机反应动力学的人工智能模型,本质上都属于不完全归纳法的范畴。它们均试图从有限的实验事实中提炼出经验或者规则,并希望其在未知的样本上展现出泛化能力。归纳推理的有效性是哲学史上长期争论的问题。启蒙时代的苏格兰哲学家休谟(D. Hume)主张一种“怀疑主义”的立场,认为不存在可以遵循的方式去证成归纳推理的任何结论。二十世纪初英国哲学家罗素(B. Russell)更是用农场上一只鸡的例子指出了单纯归纳法的危险。当这只鸡将农夫的脚步声和给它喂食这两件事关联起来时,它不会想到下一次农夫到来就会把它宰杀。当然,休谟也承认即便没有办法透过理性去证成归纳推理的结论,人类仍然必须做出并且相信这种推理。也许作为物理有机化学的研究者,我们可以暂时不必纠结于形而上学的思辨,以开放的态度看待和使用手边的一切研究工具。面对不确定的未来,让我们躬身入局、拭目以待!

参考文献

[1] E. A. Guggenheim, J. Chem. Educ. 1956, 33, 544.

[2] E. Farber, Chymia 1961, 7, 135.

[3] E. W. Lund, J. Chem. Educ. 1965, 42, 548.

[4] P. W. Andersen, Science 1972, 177, 393.

[5] J. Shorter, J. Chem. Educ. 1980, 57, 411.

[6] M. C. King, Ambix 1981, 28(2), 70.

[7] M. C. King, Ambix 1982, 29(1), 49.

[8] K. J. Laidler, J. Chem. Educ. 1984, 61, 494.

[9] K. J. Laidler, Arch. Rational Mech. 1985, 32, 43

[10] M. H. Abraham, J. Phys. Org. Chem. 1994, 7, 655.

[11] X.-K. Jiang, Acc. Chem. Res. 1997, 30, 283.

[12] F. Dyson, Nature 2004, 427, 297.

[13] J. Quílez, Bull. Hist. Chem. 2006, 31, 45.

[14] G. Nagendrappa, Resonance 2007, 12(5), 21.

[15] J. Mayer, K. Khairy, J. Howard, Am. J. Phys. 2010, 78, 648.

[16] J. Quílez, Found. Chem. 2019, 21, 221.

[17] J. Quílez, Found. Chem. 2021, 23, 85.

[18] B. J. Shields, J. Stevens, J. Li, M. Parasram, F. Damani, J. I. M. Alvarado, J. M. Janey, R. P. Adams, A. G. Doyle, Nature 2021, 590, 89.

[19] E. Callaway, Nature 2022, 608, 15.

[20] M. H. Back, K. J. Laidler, Ed. Selected Readings in Chemical Kinetics. Pergamon Press, 1967.

[21] P. Coffey, Cathedrals of Science: The Personalities and Rivalries That Made Modern Chemistry. Oxford Academy Press, 2008.

[22] T. Hey, S. Tansley, K. Tolle, Eds. The Fourth Paradigm: Data Intensive Scientific Discovery. Microsoft Research, 2009.

[23] N. E. Henriksen, F. Y. Hansen, Theories of Molecular Reaction Dynamics, The Microscopic Foundation of Chemical Kinetics, 2nd Ed. Oxford University Press, 2019.

[24] H. Westheimer, A Biographical Memoir of Louis Plack Hammett, National Academy Press, 1997.

[25] 格雷戈里• D •沃尔科特、江晓源主编,《A Source Book in Chemistry,科学元典—化学》,华文出版社,2022年。

[26] 陈敏伯,《科学通报》,2016年,第79卷第3期,196页。

[27] 赵凯华著,《定性与半定量物理学》(第二版),高等教育出版社,2008年。

[28] Ю. И. 索洛维耶夫、H. A. 菲古罗夫斯基著,丁由译,《阿累尼乌斯传:生平与活动》,商务印书馆,1965年。

[29] 黎占亭著,《二十世纪中国著名科学家书系——蒋锡夔》,金城出版社,2008年。

致谢

作者感谢中国科学院上海有机化学研究所游书力院士、黎占亭研究员、中国科学院物理研究所曹则贤研究员、中国科学院大连化学物理研究所田文明研究员、美国范德比尔特大学杨中悦教授对本文的宝贵意见。

作者简介

郑超博士,中国科学院上海有机化学研究所研究员,国家自然科学基金委员会优秀青年科学基金项目获得者。研究方向为物理有机化学与手性合成。

特 别 提 示

来源:返朴

相关推荐