Chemical Science | 智能化有机合成反应条件推荐

B站影视 电影资讯 2025-09-24 20:17 2

摘要:今天给大家讲一篇2025年8月在chemical science上发表的一篇关于有机合成方面的文章。传统的有机合成方法,主要指依赖化学家经验和文献参考的实验设计方法,在反应条件预测方面存在一定的局限性。为此,作者提出一种统一的反应条件推荐方法QUARC。实验结

今天给大家讲一篇2025年8月在chemical science上发表的一篇关于有机合成方面的文章。传统的有机合成方法,主要指依赖化学家经验和文献参考的实验设计方法,在反应条件预测方面存在一定的局限性。为此,作者提出一种统一的反应条件推荐方法QUARC。实验结果表明该方法在预测性能上显著优于流行度和最近邻基线方法,通过多个案例研究展示了其在预测多种反应类别条件方面的实用价值。因此,该工作有助于弥合计算机辅助合成规划与实际实验之间的误差。通过提供包含定量的精确反应条件,该框架能够设计更可靠的合成路径规划,从而提高药物研发的效率及成功率。

计算机辅助合成规划(CASP)作为推动制药、材料科学和农业等领域小分子研发的关键技术,通过数据驱动的方法加速了设计-制备-测试-分析(DMTA)循环中的合成路径设计。传统的CASP研究主要集中于逆合成分析,即通过算法将目标分子逆向解构为简单易得的起始原料,随着人工智能在分子设计领域方面的应用不断深入,如何预测实际合成过程中的反应条件已成为研发过程中的新瓶颈,其中反应条件(包括化学试剂、用量等)的预测尤为关键,它直接影响反应产率、产物纯度及路线可行性。目前反应条件预测方法主要分为两类,一是将条件组分划分为预定义角色(如催化剂、溶剂),并采用自回归模型对各个类别进行组合优化;二是通过端到端的语言模型直接输出试剂组合,突破特定的角色限制,但可能引入不确定性。然而上述方法现有方法仍面临诸多挑战,如数据偏差影响预测可靠性;最佳条件需实验验证而非纯理论预测等。因此,未来仍需开发具有可解释性的算法以真正实现从分子设计到合成分析的闭环。

2.1 QUARC的技术实现框架

传统的有机合成预测方法往往对化学物质的角色(如催化剂、溶剂、试剂)存在着模糊的定义,且缺乏一个统一的预测多个反应条件要素的集成方法。因此,作者提出了一个名为QUARC的框架可以同时预测反应条件的定性(试剂身份)和定量(温度)信息。该框架将将条件推荐构建为一个四阶段预测任务,首先从专利中提取相应的反应数据并构建“组分”词汇表,再将整个数据按专利文档级别划分为训练集(75%)、验证集(5%)和测试集(20%),确保评估阶段的可靠性,然后分别预测组分角色、温度、反应物量以及试剂量,且每个阶段单独训练。

为评估QUARC的性能,还额外设计了两个基准方法,其一是识别查询反应所属特定反应类别中最常见的条件(流行度基准),其二是在同一个反应类别中,找到与当前查询反应最相似的反应,然后将这个相似反应的反应条件(如温度、试剂用量等)作为推荐条件(最近邻基准)。通过将其与两种常见策略进行对比,从而验证其在真实化学研究中的有效性(图1)

图1 QUARC的具体应用

3.1 组分预测性能评估

为了让模型学习不同组分之间的依赖关系,在推理时采用自回归生成的方式逐个预测各个组分。此外,还引入了数据增强策略,通过枚举真实组分集合的所有可能顺序来训练模型,从而鼓励模型对顺序不敏感。实验结果表明,

Top-k准确率中的k值较小时,GNN模型和最近邻基准的表现都优于流行度基准方法。这表明后者在面对条件多样化的反应时覆盖能力有限。当随着k值增大,相较于前馈网络(FFN)而言,GNN生成候选组分质量更高。

这也体现了QUARC在推荐复杂、非传统反应条件方面的实用价值(图2)。

图2 组分预测性能评估

3.2 反应温度预测

为了评估模型在预测反应温度方面的性能,作者将温度预测构建为一个分箱分类任务,以更好地捕捉实际反应温度高度不规则的分布特征。实验结果发现图神经网络与前馈网络性能相当,且优于两个基准方法。流行度基准方法对温度范围变化较大的反应类别预测效果有限;最近邻基准方法虽参考同类反应,但未显式考虑试剂选择对温度的影响。然而,模型对物理化学属性接近的温度区分存在一定困难,反映了真实世界化学数据的复杂性。总之,该方法不仅具有较优的温度预测性能,还能还原化学实验中温度选择的经验分布(图3)。

图3 反应温度预测性能评估

3.3 反应物用量预测任务

为了评估模型预测反应物用量的能力,与温度预测任务类似,作者将该任务构建为一个分箱分类问题。该评估过程分为两个层次,首先衡量模型对每个反应物的预测性能。结果表明模型能有效融合各反应物的特异性信息,且优于现有的基准方法。其次,则在反应级别上进行评估。通过将所有反应物的预测结果分组,将反应级准确率分为三个互斥类别:精确匹配、偏差一个分箱和重大偏差。结果显示,基准方法在仅有一种反应物的反应中表现尚可,但在更复杂的反应中,其性能急剧下降。相反,FFN与GNN模型在这些复杂场景中展现出显著优势,能更准确地推断出多种反应物之间恰当的化学计量关系,表明了其学习复杂化学规律的能力的巨大优势(图4)。

图4 反应物用量预测评估

传统方法在推荐有机反应条件方面存在明显缺陷,其一是简单统计的方法难以应对反应条件的多样性;二是现有方法无法充分考虑选择性和化学计量比等关键因素,无法实现精准条件推荐。

为解决这些问题,作者提出了一种反应条件推荐方法QUARC,以大量专利反应数据为基础实现智能化多个反应条件的推荐。与传统方法相比,该方法在各个阶段过程中都具有显著优势,尤其是在处理条件较多的复杂反应时更为突出。这为后续的实验优化与专家评估提供了参考,从而加速了药物分子合成路径的设计,这也标志着向自动化合成研究工作转变的重要一步。

参考文献

Sun X, Liu J, Mahjour B, et al. Data-driven recommendation of agents, temperature, and equivalence ratios for organic synthesis[J]. Chemical Science, 2025.

来源:小蜗牛的梦

相关推荐