AI 研习丨化合物逆合成路线设计方法综述

B站影视 2025-01-07 15:46 2

摘要:摘 要:对目前计算机辅助逆合成分析的方法进行分类总结,介绍了单步逆合成预测方法和多步逆合成路径规划策略,并对它们的优缺点进行分析。最后讨论了现有方法的不足之处,以及自动化逆合成分析面临的潜在挑战和机遇。

文/林圣庚,魏冬青,熊毅

摘 要:对目前计算机辅助逆合成分析的方法进行分类总结,介绍了单步逆合成预测方法和多步逆合成路径规划策略,并对它们的优缺点进行分析。最后讨论了现有方法的不足之处,以及自动化逆合成分析面临的潜在挑战和机遇。

关键词:逆合成;路径规划;深度学习;图神经网络;编码器-解码器

0 引言

近年来,计算机辅助化合物分子的合成规划得到了快速发展,特别是逆合成分析受到了广泛关注。逆合成分析是一种逆向规划合成路线的技术,它将目标分子沿着反应路径分解成一系列越来越简单的前体,最终得到商业上可用的起始原料;同时可以有效解决复杂分子的合成问题,促进有机合成科学的发展。但是,它是一个复杂的问题,需要在一个大的空间里搜索可能的途径来转化目标分子,例如化学键的断开、官能团的替换等。传统上,逆合成分析主要基于化学家的知识、经验和直觉,但是,由于没有系统的方法指导,复杂分子的合成对科学家来说仍然是一个挑战。例如,合成维生素B12是化学有机合成领域的一项重大成就,但是其合成花费100多名化学家近12年的共同努力。随 着 结构复杂性的增加,识别可用的起始原料需要在一个随反应步骤数呈指数增长的反应空间中进行搜索。Szymkuc等估计,当反应步骤数从15增加到30时,反应搜索空间的大小将从1030增加到1050。巨大的搜索空间使得仅依靠化学家的现有知识进行逆合成分析变得不可行,因此,科学家们一直在尝试使用计算方法来辅助逆合成分析。

20世纪60年代,Corey首次提出了逆合成分析,并利用这一理论合成了大量复杂的天然化合物,包括美坦素、青霉素、三环酸;同时开发了第一个有机化学模拟合成程序,帮助设计有机合成路线,开启了计算机辅助合成规划的新时代。在之后的30年中,化学、生物和计算机科学家对开发计算机辅助逆合成分析表现出极大的热情,但几乎没有取得突破,因为受当时算法、算力和数据的制约,当时更多的科学家认为这是“不可能完成的任务”。然而,在20世纪90年代后,随着新的高效算法和精心设计的数据库的发展,以及更多化学信息学工具的出现,科学家们进行计算机辅助逆合成分析的热情被再次点燃。SMILES表征方式(简化分子线性输入规范)被开发出来。SYNCHEM和LHASA都该领域的开创性成果。随后,计算机辅助逆合成分析发展了基于模板和不基于模板的两类主要方法。基于模板的方法依赖于人工编码规则,为机器找到合成路径提供了一种方法,但其灵活性和可扩展性较差;并且基于规则的方法很难覆盖整个有机反应空间,可能给出错误的结果(例如,算法会产生一种从不存在的化合物,或者忘记保护具有高反应性的基团)。相比之下,不基于模板的方法可以提取隐藏在数据中的知识和规则,并在新数据上自动规划合成路线;但由于前期受到数据和计算资源的限制,不基于模板的方法并没有表现出良好的性能。在过去的10年中,结合深度学习技术的数据驱动模型在各种应用中展示出了专家级别的性能,如语音识别、计算机视觉、自然语言处理和自动驾驶。因此,随着计算能力的大幅提高,机器学习的快速进步,以及诸如Reaxys、Scifinder和USPTO数据集等化学反应数据库的建立,不基于模板的方法性能取得了显著进步。此外,研究证明,基于机器学习的方法可以理解和设计复杂的化学反应。因此,使用机器学习进行逆合成分析是一种非常有前景的方法。结合基于模板和不基于模板两种方法的优势,最近研究人员又提出了一种基于半模板的方法,其通过模仿化学家进行逆合成分析的方式,将目标分子拆分为合成子(不完整的分子),再将合成子补全为反应物,具有良好的解释性、可扩展性和预测性能。

本综述旨在对计算机辅助逆合成分析的方法进行分类总结(见表 1),并对其优缺点加以分析。即将这些方法分为单步逆合成预测方法和多步逆合成路径规划策略。在单步逆合成预测方法中又分为基于模板的方法、不基于模板的方法和基于半模板的方法。其中,不基于模板的方法又分为基于图的方法、基于序列的方法,以及二者相结合的方法。最后对计算机辅助逆合成分析目前存在的问题,以及未来的发展方向进行了展望。

1 单步逆合成预测方法

1.1 基于模板的方法

基于模板的方法使用由反应模板定义的规则将目标分子转换为反应物分子,如图 1所示。反应模板是一组描述化学反应的反应中心的规则。由于反应模板的多样性,一个目标分子可以有多种反应类型来产生完全不同的反应物,因此选择合适的反应模板是基于模板的方法需要解决的核心问题。

为了选择合适的模板,基于模板的方法往往侧重于追求目标分子到模板的一对一映射精度。但是更高精度的模型可能排除了潜在可用的反应模板。为解决这个问题,Michael等通过增强适用性数据集和预训练有效地提高了模板的适用性和规模,以及给定目标分子的成功反应概率。

在一个化学反应模板集中,有些模板的训练样本很多,有些很少或者几乎没有,这种训练样本的不均衡性导致模型更倾向于选择样本多的模板。为解决这个问题,Philipp等基于Hopfield网络提出了一种提高模板泛化性的模型,该模型学习分子和反应模板的编码向量,以便预测模板与给定分子的相关性。模板的向量表示允许跨不同反应进行泛化,因此显著提高了训练样本较少的模板的预测性能。

基于模板的方法往往通过反应中心选择反应模板,但是Connor等的研究表明,通过分子的相似性选择反映模板也是一种可行策略。根据目标分子与已有化学反应产物的相似性打分,对反应模板进行排序,再根据反应中心得到目标分子的反应物。实验结果证明了这种方法的有效性。

为提高模板选择的准确性,Javier等提出了一个两步选择模板策略。首先,建立一个deep highway networks模型来预测使用哪组反应(同组反应的化学反应规则相似)来生成分子;确定了反应组后,再使用针对反应组内的反应子集进行训练的deep highway networks来预测用于生成分子的转化规则。

Lan等提出了一种数据驱动的逆合成分析算法RTSA,从化学反应数据集中学习逆合成反应模板,并将其应用到目标分子的合成中。根据特定的情况,可以选择性地对逆合成路线进行相应的处理,例如在可用的数据库中搜索反应物的存在,或使用任何反应物作为新的RTSA输入。

虽然基于反应模板的方法在预测精度上优于不基于模板的方法,但是,基于模板的方法经常忽略原子所处的环境导致反应冲突而导致预测失败。为解决这个问题,Marwin等利用深度神经网络学会解决反应冲突,并优先考虑最合适的反应模板,从而提高了基于模板方法的预测准确率。

基于模板的方法具有高度的可解释性,因为该类方法与化学家进行逆合成的想法类似,并且其预测精度往往优于不基于模板的方法。但基于模板的方法仍然存在一些挑战,首先,制定丰富的标准模板集是一项需要人工干预的复杂任务;其次,基于模板的方法不可能预测在模板数据集之外的反应;最后,在实际情况下,系统推荐的规则可能会因为忽略了原子所处的环境而导致预测失败。

1.2 不基于模板的方法

1.2.1基于图的方法

化学反应本质上是化学分子的化学键断开与形成,原子的增添与消去的过程。因此,将逆合成预测表示为目标产物分子图的变换是一个自然的想法,如图2(a)所示。图神经网络的目标是通过递归地在分子图中传递消息,聚合相邻原子的表示,从而学习每个原子的表示,直到图中每个原子的表示达到稳定平衡。随着图神经网络的发展,出现了许多基于图的逆合成预测模型。

现有的逆合成预测方法通常基于分子的整体结构来预测反应物,但是这通常会包含与化学反应不直接相关的信息。受化学反应中分子的变化主要发生在局部的化学直觉的启发,Chen等提出了一个名为LocalRetro的局部逆合成框架。局部指在化学反应中发生变化的反应中心。由于远端官能团也可以作为次要方面影响整个化学反应,因此所提出的局部逆合成模型可以通过全局注意力机制进一步细化,以解释化学反应的非局部效应。

Lee等将逆合成预测建模为从一组候选的可获得的分子中选择反应物的问题,通过设计一个高效的反应物选择框架,根据图神经网络计算的选择分数来枚举所有候选分子。Seo等提出了一个图截断注意力模型,通过将目标分子的图拓扑信息插入到序列到序列(seq2seq)的模型,利用序列和图的表示来提高逆合成预测的精度。模型利用目标产物分子的邻接矩阵掩盖编码器中的自注意层,并利用原子映射将新的训练损失应用到解码器中的交叉注意层,从而使模型更加关注化学反应中心的信息。

一些现有的方法依赖于基于模板的模型来定义子图匹配规则,但是化学反应是否可以进行并不是完全由规则来定义的。Dai等提出了一种使用条件图逻辑网络的方法,利用图神经网络上的条件图模型,自适应地学习应用反应模板的规则,隐式地考虑模板定义的反应在化学上是否可行。

为了改进逆合成预测模型的性能和增强预测的可解释性。Ishida 等提出了一个可解释的预测框架,即使用图卷积网络进行逆合成预测,并使用集成梯度对预测的贡献进行可视化。从预测精度的角度来看,提出的模型比使用扩展连通性指纹的方法表现出更好的性能。此外,基于集成梯度的图卷积网络预测可视化成功地突出了与化学反应相关的原子。

在许多情况下, 由于一些现实条件的限制,最可能的逆合成路径无法应用, 这 就需要找出替代的合成路径。Mikołaj等提出了一个端到端的编码-解码神经网络模型——分子编辑图注意力网络(MEGAN)。MEGAN 将化学反应建模为一系列图编辑模型,类似于箭头推动的符号主义;将逆合成预测表示为图编辑序列使其能够有效地探索合理的化学反应空间,并且端到端的预测方式也保持了反应建模的灵活性。

基于图神经网络的方法通过图卷积自动学习分子的表示,而不需要手工选择的描述符或指纹 , 从而省去了复杂的特征工程步骤。并且基于图表示方法中所有子图都是一个个小的化学子结构,因此基于图的方法具有好的可解释性。但是基于图的方法由于其聚合邻域信息的特性,往往忽略化学反应的整体信息;此外,由于过平滑等问题,基于图的模型往往只能构建二或三个子层,限制了基于图的方法的表示能力。

1.2.2 基于序列的方法

基于序列的方法将逆合成视为一个seq2seq的机器翻译过程,通过编码器 - 解码器架构(包括长 - 短期记忆单元网络,门控循环单元网络和Transformer体系结构)将目标分子的SMILES字符串转换为反应物的SMILES字符串 , 如图2(b)所示。

基于序列的方法通常使用SMILES字符串来表示反应物和生成物。但是由于SMILES语法规则的复杂性,导致基于序列的逆合成预测模型在学习复杂的化学反应映射时还需要学习复杂的SMILES语法规则。为使模型从复杂的SMILES语法 规则中解脱出来, 研究人员尝试了不同的生成物和反应物的表征方式。Vipul等在原有的基于字符级别的SMILES表示方式上,提出了一种基于语法树的SMILES表示方式。信息论分析表明,基于语法树的SMILES表示方式相对于基于字符的SMILES表示方式,具有更高的信息容量,也更适合于机器学习任务。Ucak等通过构建一个具有MACCS键的固定长度词汇表的抽象语言来表示反应物和生成物,通过这种表示方法可以解决由于SMILES复杂的语法规则导致的模型预测结果错误。在此基础上,他们又提出了一种原子环境表征方式来表示反应物和产物。原子环境是基于原子拓扑的,具有化学意义的化学子结构表示方法。通过这种方式可以模仿化学推理,并通过学习与化学反应相关的原子环境的变化来预测反应物。Zhong等认 为,SMILES表示方式忽略了化学反应的特性,即在化学反应中,从反应物到生成物的分子图拓扑在很大程度上没有改变, 如果直接应用SMILES则会忽略这种信息,导致次优的性能。因此,他们提出了根对齐的SMILES (R-SMILES) 表示方法,指定了产物和反应物SMILES之间紧密对齐的一对一映射,以更有效地进行逆合成预测。由于严格的一对一映射,使计算模型在很大程度上从SMILES复杂语法的学习中解脱出来,专注于对化学反应知识的学习。除了一些表征方式上的改进,为了解决解码器生成的反应物分子不符合SMILES语法规则的问题,Zheng等开发了一个自校正逆合成预测器。通过将逆合成模型与基于神经网络的语法校正器耦合,实现了更高的预测准确率。

由于Transformer的全局注意力机制能够捕获长程依赖信息,以及良好的并行化能力,自提出以来就在一些领域取得了巨大成功,如机器翻译、文本生成、语义分析和药物发现等。在基于序列的逆合成预测模型中,大多数模型也同样基于Transformer架构。Lee等开发了一个基于注意力的机器翻译模型——分子Transformer。通过从同一数据集学习来处理正向反应预测和逆合成预测。Kim等利用循环一致性检验、参数共享和潜变量机制,开发了双向绑定Transformer模型,提高了逆合成预测的准确性和多样性,降低了语法错误。Philippe等开发了一个多头注意力分子Transformer模型, 通过推断数据集中反应物和产物的化学反应中心是否存在相关性来进行预测。该模型既可以进行正向反应预测,即给定反应物预测产物;也可以进行逆合成预测,即给定产物预测反应物。Zhang等将迁移学 习与Transformer模型相结合,对Baeyer-Villiger反应的结果进行预测,该反应是一种代表性的小数据集反应。结果表明,引入迁移学习策略后,Transformer模型对小样本数据集的预测精度显著提高。Philippe等通过Transformer神经网络学习产物和反应物之间的原子映射信息, 使用Transformer注意力权重,构建了一个反应映射器。实验表明,即使对于具有非平凡原子映射的复杂化学反应,该方法也能给出准确映射。Pavel等使用Transformer模型进行逆合成预 测, 并研究了不同训练方法对Transformer模型预测性能的影响。发现使用平均学习率权重的快照集成学习效果最好, 同时温度系数对于解码器也有很大的影 响。Igor等利用SMILES表示方法和Transformer模型架构, 研究了不同数据增强方法对逆合成反应预测的影响。研究表明,数据增强消除了神经网络数据记忆的影响,提高了神经网络的预测性能。SMILES随机增强能够通过添加更多的数据,以及在网络中添加更多的随机性和自由度来稳定模型的学习,能够更好地提高模型性能。不同于现在流行的Transformer模型,Liu等开发了一个由两个循环神经网络组成的编码器 - 解码器架构的逆合成模型,该模型在逆合成领域是少有的不基于Transformer架构的序列方法,其预测性能比基于Transformer架构的模型稍差。

由于Transformer强大的注意力机制,seq2seq方法的编码器-解码器架构,以及各种基于序列的数据增强方法,使基于序列的方法往往能够比基于图的方法取得更好的预测性能。此外,自注意力机制也能很好地捕捉到化学反应中的原子映射,因此基于序列的方法具有一定可解释性。但是,此方法丢失了分子图的拓扑信息,且复杂的SMILES语法规则增加了模型学习的难度。此外,基于序列的模型往往比基于图的模型,需要更多的参数和更长的训练时间。

1.2.3 基于图和序列结合的方法

基于图的方法由于其聚合邻域信息的思想,能够很好地利用分子拓扑结构捕捉局部信息,但是捕捉分子整体信息的能力稍差。基于序列的方法往往基于Transformer模型,由于其全局注意力机制,能够很好地获得分子的整体信息,但是它通常忽略了原子连接和分子拓扑结构的信息。因此,为了同时利用基于图和基于序列的方法的优点,科学家们尝试将这两种方法结合起来进行逆合成预测。

为了对原子表示学习进行更合理的化学约束,以获得更好的性能,Mao等 提出了一种图增强Transformer(GET)模型,它同时采用了分子的序列信息和图信息;此外提出了四种不同的GET设计,将SMILES表示与从图神经网络中学习到的原子嵌入相融合,更好地进行逆合成预测。Wan等基于局部注意力头提出了一种基于Transformer的逆合成预测模型。该模型可以对分子序列和分子图进行联合编码,并在局部反应区域和全局反应上下文之间有效地交换信息,且具有良好的可解释性。Sun等提出了一个框架,将基于序列和图的方法统一为基于不同能量函数的计算模型,建立并揭示了基于序列和基于图的模型之间的联系和差异。

基于图和序列结合的方法,能够很好地捕捉化学反应的全局信息和局部信息,因此大多数情况下能够取得更好的预测结果。但是,模型的复杂度和计算量也同样比只基于图或序列的方法更高;同时,模型实现的困难程度也随之增加。

1.3 基于半模板的方法

基于模板的方法通过利用反应模板来获得较高的准确性,然而模板的使用带来了一些缺点。例如,计算成本高,规则覆盖不完整,降低了可扩展性,模板集的建立过程费时费力等。而不基于模板的方法正好弥补了基于模板的方法缺点,扩展性好,不需要手工建立模板集。但是不基于模板的方法的预测准确性不如基于模板的方法。因此,结合这两种方法的优点,使建立的模型既有好的扩展性,又能够提高预测准确率,最近研究人员又提出了一种新的基于半模板的方法来进行逆合成预测。

基于半模板的方法通常将单步逆合成预测分解为反应中心识别和合成子补全(合成子指不完整的分子)两个子问题,反应中心识别在不使用模板的条件下将目标分子分解成虚拟的合成子,增加了模型的可扩展性;合成子补全简化了反应物生成的复杂度,将合成子作为潜在的起始分子,通过将一些基团(如原子和离子等)附加到合成子上以得到反应物。基于半模板的方法更符合化学家的思维过程,具有良好的可解释性。

基于半模板的不同方法使用不同的策略进行反应中心识别和合成子补全。Shi等通过将目标分子图转换为一组反应物分子图,通过识别反应中心将目标分子图拆分为一组合成子,然后通过变分图转换框架将合成子转换为最终的反应物分子图。Yan等提出的半模板算法RetroXpert,首先通过图神经网络识别目标分子内的潜在反应中心并生成合成子;然后通过反应物生成模型根据得到的合成子预测相关反应物。Vignesh等利用分子的图拓扑在化学反应过程中基本不变的思想,开发了一种基于图的半模板模型。该模型首先预测一组图编辑,将目标分子转化为合成子;然后,该模型学习通过附加相关的离去基团将合成子扩展为完整的分子。Wang等使用两个Transformer模型分别完成将目标分子分解为合成子和合成子补全这两个过程。Gao等将一个完整模板分解为几个半模板,并将它们嵌入到不基于模板的框架中来进行逆合成预测。

基于半模板的方法通过模型自动地从训练数据集中提取模板,并通过提取到的模板将目标分子转换为合成子,再通过合成子补全得到反应物,既省去了复杂的人工收集编写模板集的过程,又符合化学家进行逆合成的思想,具有一定的可解释性。但是基于半模板的方法不是端到端的方法,反应中心识别和合成子补全是两个独立的过程,如果第一步反应中心识别出现错误,那么整个预测结果就不可能正确,且没办法通过第二步合成子补全来弥补第一步的错误。

2 多步逆合成路径规划策略

虽然多步逆合成路径规划是一个复杂的过程,任何单步逆合成预测的失败都可能破坏整个合成过程,但是 Barbara 等证明了计算机自动综合规划逆合成路线是可能的。虽然单步逆合成预测方法已经有很大改进,但为了完善整个逆合成路线设计,满足目标分子高复杂性的实际要求,还需要提高多步逆合成路线规划的性能。多步逆合成包括单步逆合成预测模块和通过递归应用单步逆合成预测模块,来搜索最优逆合成路径的规划策略。下面重点介绍逆合成路径的规划策略。

逆合成路径规划策略大致可以分为基于蒙特卡罗树搜索(MCTS)的方法、基于专家打分函数的方法、基于与或树的方法、基于深度学习的方法、基于强化学习的方法和基于超图的方法。

MCTS是一种通过逐步改进统计树的决策过程,寻找最优决策并引导逆合成路线走向特定搜索方向的方法。搜索树的自动增长需要多次迭代,迭代次数越多,MCTS 就越接近完美的解决方案。此外,多步逆合成中每步可供选择的路径组合空间是天文数字,但MCTS的策略能够有效地减少搜索空间,找到当前树中最重要的节点Marwin等使用MCTS和符号人工智能来设计逆合成路线。通过将MCTS与指导搜索的扩展策略网络,以及预先选择逆合成步骤的过滤网络相结合设计多步逆合成路线,比基于启发式的传统计算机辅助搜索方法快30倍。Lin等使用带有启发式评分函数的MCTS,构建了一个完全数据驱动的端到端逆合成路线规划系统来规划逆合成路径。

基于专家打分函数的方法是基于化学直觉的启发式算法,例如,由化学家制定的一系列规则给原子键断开、环的断开与形成打分。而机器学习方法又是完全数据驱动的方法, 缺乏专家领域知识。Tomasz等证明,基于专家打分函数的方法和机器学习方法可以协同配合,当神经网络根据高质量、专家编码的反应规则匹配的文献数据进行训练时,可以获得更高的预测精度。

与或树主要适用于结果导向的各种问题,它通过将一个问题进行不断的分解,寻找出不同的解决方案,最后通过判断来找出最适合的解决方案。因此,与或树可以很自然地应用到多步逆合成的搜索策略中。通过将目标分子不断地进行分解,根据分解的方式不同,可以得到不同的前体分子和逆合成路径,最后通过判断来找出最合适的逆合成路线。Zheng等通过将与或树应用到生物合成的路径搜索中,可以有效地对可能的生物合成路径进行采样。

随着深度学习在各领域的蓬勃发展,科学家们也尝试使用深度学习的方法来解决逆合成路径规划问题。Mo等引入了一种数据驱动的方法,利用动态树结构长短期记忆 (tree-LSTM)模型来评估逆合成路径。经过训练的tree-LSTM模型学会将路径级别的信息编码为一个具有代表性的隐向量,促进相似路径的聚类,以帮助解释计算机程序生成多样化的合成路径。Chen等提出了一种基于神经网络的类似A*算法 的逆合成路径搜索算法Retro*,能够有效地寻找高质量的逆合成路径。它将搜索过程维护为一棵与或树,并使用非策略数据学习搜索偏差;然后在神经网络的指导下,在新的规划过程中高效地执行最佳优先搜索。Kim等直接训练深度神经网络生成理想的逆合成反应路径。训练过程是一个自我提升的过程,模型通过不断模仿自己已经成功发现的逆合成路径来提高自己的性能。此外,他们还提出了一种基于正向反应模型的增强方案,实验结果表明该方案显著提高了逆合成问题的求解成功率。Coley等结合人工智能驱动的合成路径规划和机器人控制的实验平台,设计了一个逆合成路线规划系统。合成路线通过归纳数百万个已发表,并在计算机中经过验证的化学反应,提高规划的成功率。

强化学习又称为评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体在与环境的交互过程中通过学习策略,以达成回报最大化或实现特定目标的问题。如果将逆合成规划问题描述为一个单人游戏,在游戏中化学家 ( 或计算机程序 ) 的获胜目标是通过一系列关于进行哪种反应的选择,从目标分子推断出反应物,那么逆合成路径规划问题就可以使用强化学习的方法进行解决。John等使用强化学习,根据用户定义的成本度量在每个单步逆合成预测步骤中做出 ( 接近 ) 最优反应的选择。Wang等将MCTS与通过强化学习训练的价值网络结合,提高了在固定搜索时间内找到有效合成路径的成功率。

在传统的图结构中,每条边只能连接两个结点,而超图中的超边可以同时连接大于或等于2个结点。逆合成路径规划树相当于一个有向无环超图,一个起始节点代表一个目标分子,连接到不同节点的超边代表涉及这些对应分子的所有可能反应。因此逆合成路径的规划过程,可以看作超图的动态扩展过程。Philippe等根据类似贝叶斯概率进行超图的动态过滤和扩展,在没有人为干预的情况下自动进行逆合成路径规划。

在这些多步逆合成路径规划策略中, 基于MCTS和基于深度学习的方法是目前最流行的方法。但由于缺乏统一的评价标准,不同的路径规划策略都有其各自的优势和不足。基于深度学习的方法可能是比较有前景的方法,但它是一种数据驱动的基于统计的方法。如果能够将基于数据的统计人工智能与基于知识的符号人工智能结合用于多步逆合成路径规划,可能是一种更有前景的方法。

3 结束语

随着大型化学反应数据库的建立,计算机算力的提高,计算机辅助逆合成分析已经取得了惊人的进步;同时,这些进步也使得研究人员相信实现完全自动化地进行逆合成预测是可行的。但是,目前的研究成果距离逆合成预测的完全自动化还有一段距离。

机器学习方法的性能在很大程度上取决于化学反应数据库的质量,高质量的数据库将加速逆合成的进一步发展。因此,建立统一的高质量化学反应数据库十分必要。

纯数据驱动的机器学习模型有时缺乏可解释性,并且容易受到训练数据的分布影响出现预测偏差。一般来说,机器学习模型更可能从数据集中出现频率高的键断开规则中学习,忽略其他罕见但可能更简单的键断开方式。将数据驱动方法与基于知识的人工智能方法相结合不仅可以提高模型的可解释性,而且可能是减少模型构建偏差,以及为逆合成问题提供新颖有效的解决方案。

现阶段大多数逆合成路径规划算法设计时没有考虑反应条件(如试剂、催化剂、溶剂和温度等),未来可以在逆合成综合规划中添加反应条件来约束逆合成规划的路线。

当前的单步逆合成预测评估指标通常是比较top-k的预测准确率,这种评价方式不能全面地评价模型的好坏。而多步逆合成路径规划算法缺乏比较基准,无论是单步还是多步逆合成都尚未形成成熟的评价方法。因此,建立科学和全面的评估标准需要科学家们的共同努力。

提高人工合成化合物的能力可以带来巨大的社会和技术影响。利用人工智能技术,在研究人员的不懈努力下,逆合成分析问题的完全自动化指日可待。

选自《中国人工智能学会通讯》

2022年第12卷第11期

人工智能与生命科学专题

来源:中国人工智能学会

相关推荐