摘要:合成有机化学是化学领域的重要支柱,广泛应用于药物发现、化学生物学、材料科学和工程学等多个领域。然而,复杂化学合成的执行通常需要专业知识,需要通过多年的学习和实验室实践来获得。尽管在过去的半个世纪中,一直致力于开发能够简化和自动化化学合成的技术,但仍未取得理想的
摘要:合成有机化学是化学领域的重要支柱,广泛应用于药物发现、化学生物学、材料科学和工程学等多个领域。然而,复杂化学合成的执行通常需要专业知识,需要通过多年的学习和实验室实践来获得。尽管在过去的半个世纪中,一直致力于开发能够简化和自动化化学合成的技术,但仍未取得理想的结果。然而,随着计算能力、数据可用性和算法的改善,人工智能(AI)再度引起了广泛关注,并在合成化学的不同任务中取得了令人瞩目的成果。本综述将讨论AI对合成化学的最新影响,并通过分析文献中的具体案例,来揭示其中的关键概念。我们旨在为实验室化学家解析AI的工作原理,让他们将其视为一种工具而不是竞争对手,同时通过指出知识空白的存在,推动未来研究的发展,并明确AI在数字化学时代的应用前景。
化学常常被描述为中心科学,而化学合成则是该学科的核心。合成通常被描述为一种必须经常实践才能掌握的艺术。确实,考虑到化学的复杂性和非线性特性,我们可以理解,在合成规划、设计新的化学反应和优化反应条件等各种任务中,高效地执行这些任务需要实践多年、具备专业化学知识的经验化学家。尽管人类的化学直觉仍将是化学研究的推动力,但越来越多的人期望能够将其形式化和自动化,至少在部分领域或在严格控制的环境中,以提高生产效率和结果的可重复性,特别是在与机器人相结合时。这种主算法概念模拟了化学直觉,并作为实验室化学家的辅助工具存在,这一概念由E. J. Corey在半个世纪前提出,他认识到“人性和创造力带来了不可避免的短视和偏见”。例如,人们早就知道,个人偏好和行为习惯可能会在最有经验的实验室化学家中产生强烈的决策偏差,这可能会阻碍在化学领域的发现,并无意中缩小了搜索空间。
为了克服人类直觉的自然限制并增强化学感知能力,上世纪60年代末出现了几次利用人工智能(AI)的尝试,特别目标是自动化反向合成分析,即从目标分子开始,递归地确定最佳断链,直到找到可用的构建块。可能是因为当时缺乏足够的计算能力、适当的算法和数据可用性,这些基于反应规则的工具都没有超越复杂的概念,早期对“人工智能”的热情逐渐冷却。五十年过去了,计算机辅助合成规划和人工智能在化学和药物发现社区中重新引起了兴趣。借助不断改进的计算能力和存储容量,当前的人工智能算法(图1)能够解析并正确执行与不断增长的公开可用数据(即所谓的大数据)的相关性分析。此外,硬件成本的降低和构建定制学习算法的开源工具的可用性强烈呼吁将数字化学和实验室化学持续无缝地融合,这可以从根本上改变合成化学领域目前的工作方式。
根据目标和手头的数据,所有类型的人工智能在化学中都可能发挥作用。当适当应用时,人工智能可以提供强大的工具,以有意义且无偏见的方式解决具有挑战性的化学问题。通过这样的方式,当前的人工智能在帮助实验室化学家识别数据中的模式和相关性,并为人类无法解决的问题提供解决方案方面显示出潜力。为了突出近期的进展并揭示人工智能在化学科学中的应用,我们在本综述的后续部分将专注于其关键要求——化学数据和可用的启发式方法。通过分析选择的例子和不同应用的结果,我们展示了这些方法如何解决合成化学中的重大挑战,加速发现化学并增强人类感知能力。我们着重讨论最近部署的机器学习工具,用于设计(生成可行的研究假设)、改进(进行多目标优化)和排序路线(减少周期时间)以实现目标分子。具体而言,我们讨论了人工智能在自动化反向合成分析、反应结果预测、反应条件优化和新化学物质的鉴定方面的应用。我们希望通过这篇综述,能让化学前沿的研究人员了解他们的实验研究如何从尖端的仿真技术中受益。此外,我们旨在通过促进实验室化学家与计算机科学家之间的交流,并通过概率性的发现化学来推动文化变革。
BOX 1|机器学习的概念
实质上,人工智能(AI)是从数学模型中发展而来,试图以概率方式解释特定事件,可以通过使用学习函数直接实现,也可以通过统计计算在内部验证过程中实现。无论采用何种方法,任何AI的关键在于其泛化能力,即能够准确预测之前未见过的数据的结果。这将决定该方法适用的领域以及最终的实用性和稳健性。必须实现严密平衡,以使拟合模型不仅可以解释源数据,还可以解释未见事件。因此,需要避免AI算法的欠拟合和过拟合,并通过交叉验证研究(将一部分数据保留用于模型评估)进行评估。虽然增加数据可以是避免模型欠拟合的好策略,但通过"正则化"即减少建模变量的数量、不鼓励选择复杂和高度灵活的模型,可以将过拟合最小化,以实现高效、有产出的AI(见下图)。非常简单的模型(欠拟合)往往不能解释源数据,因此在预测未见事件的结果方面具有有限的实用性。相反,非常复杂的模型(过拟合)很好地解释源数据,但在未见数据上表现不佳,因为模型对已经见过的内容有高度偏好。必须在偏差和方差之间取得良好的平衡。从输出的角度来看,AI可以用于回归、分类或聚类问题。在回归问题中,预测数值;而在分类和聚类问题中,根据训练时已知的输出/标签(分类)或仅根据数据结构而无已知标签(聚类),分配类别。虽然回归和分类方法通常被认为是监督学习,因为算法对每个训练实例都“知道”正确答案,但对于聚类方法来说并非如此,其中数据仅根据其结构进行聚合。聚类方法,如k-means、层次聚类和主成分分析等降维方法,是无监督学习的例子,适用于开放式问题、异常检测和数据异常值的检测。
Fig.1|1976年至2020年专利中可获取的化学反应数据存在着很大的变异性
1976年至2016年药物专利文献中化学反应数据的特点和变异性。a|制药专利文献中可解析的、独特的化学反应数据仅占所有可用信息的极小部分(35%)。这些信息具有高度异质性,只有53%的反应报告了产率值(产率值是指化学反应中所得产物的实际产量与理论产量之间的比值。它表示了反应的效率和产物的纯度),无论是通过"文本挖掘"从专利文本中提取的,还是通过所报道的产物数量进行计算得出的。约有每10个专利反应中就有超过10%的文本挖掘和计算得出的产率值存在差异,其中大多数情况下计算得出的产率值错误地超过了100%。每个讨论的情况都给出了反应示例,并突出显示了反应中心。b | 反应数据(绿色)高度偏斜:有些反应被报告了很多次,而其他反应只有少数几次报告。报告了产率的反应(橙色)也遵循类似的趋势。为了可解释性,仅显示了最频繁的20,000个独特反应(占前5%),并将反应编号(其中每个独特组合的构建模块、溶剂、催化剂和产物被分配一个编号)转换为log10值。
高质量的数据源
在化学领域,获取大量高质量的数据对于生成高效的人工智能(AI)用于化学领域至关重要(也适用于其他应用领域)。与其他科学领域不同,化学反应信息的标准化数据获取通常更困难。一方面,没有专门的公开可用的数据存储库(如DrugBank、ChEMBL或PubChem)来汇集反应信息,只有商业资源(例如SciFinder和Reaxys)。另一方面,构建知识库通常是费时费力且昂贵的,使得这种方法在大多数研究环境中难以实施。鉴于这些限制,不足为奇的是,应用于化学的AI主要依赖于经过筛选的商业数据库,使用定制代码从文献中提取反应方案,以及较少地使用专有数据。原则上,标准的反应描述包含进行计算机模拟所需的所有必要信息。这使得专利成为了吸引人工智能在化学中应用的资源和基础。
对1976年至2015年期间超过125,000个药物专利进行的回顾性分析揭示了机器学习的机会和挑战,以及实验室实践的趋势,这些趋势支持对特定反应类型的偏好决策。分析发现,超过110万个独特反应中,酰基化、脱保护化学、烷基化和杂原子芳基化是药物化学中最常见的化学转化之一。这与另一项独立研究调查同行评审期刊中最常见的化学相一致,并且可能会影响到基于已知反应作为模板的逆向合成推荐工具的实用性。由于较少常见的化学转化的底物范围知识有限,因此使用AI工具时准确性可能较低。总体而言,专利数据偏向于已知的化学方法,而不是新方法,尽管随着时间的推移,Suzuki和相关的交叉偶联反应等C-C键形成反应的数量逐渐增加。
然而,利用专利信息的潜力并不容易,因为涉及到不同的数据来源、呈现格式和自动挖掘旧专利的困难。例如,在上述专利期间,只有64%的反应能够被归类为一种反应类型,其中只有40%的反应报告了产率。对数据库进行了重新分析,包括扩展到2016年,结果完全证实了这一观察结果,唯一的例外是对产率值进行了更多的标记(53%,Fig. 1a),这些值可以直接从文档中提取,也可以通过计算分离产物的数量得到。此外,分析显示,对于同一专利中的同一反应,通过文本提取和计算得到的产率值存在较大差异。令人惊讶的是,47,358个反应(10%)的这两个值之间存在>10%的差异,而9%的反应的计算产率超过100%。总之,这些观察结果并不否定数据的有效性,但表明不是所有信息都同样适用和重要,因此在构建高质量的AI方法之前,需要进行谨慎的筛选。
自动化的逆向合成分析
可以说,确定通往感兴趣分子的高效合成路线是合成化学中最具挑战性的任务之一。这可能是目标分子结构复杂性增加和需要构想级联递归过程来获取所需化学物质的结果。此外,使用动态化学转化工具箱使得研究人员无法跟上所有可用反应的最新进展。因此,构建一个自动化和通用的搜索引擎,通过识别断裂位点和/或适合的构建模块来形式化化学直觉,必然有助于化学家实现分子的实体化,并使他们能够专注于其他任务。不出所料,已经开发了不同的方法,旨在隐式或显式地提取分子中潜在的断裂位点的知识,并将该信息转化为可计算的单元,如20世纪60年代的一些文献中所推崇的那样。例如,将自然语言处理应用于分子可以表明,稀有键被识别为首选的断裂位点,然后可以推导出适当的合成等价物。
化学反应也可以通过更直观的方法有效地编码,例如用于相关键的SMARTS(简化分子输入行进制(SMILES)任意目标规范)模式,以提供基于规则的方法。值得注意的是,由于其简单性,这些方法可能会提出对感兴趣分子的途径,而不严格学习数据,而是通过编码反应机理和/或骨架构建。可以争论说,基于规则或基于相似性的方法在实际应用中并不够实用,通常需要费力的手动编码,这可能限制了已知反应的范围,需要较长的处理时间,并且与AI相比准确性较低。虽然在某些情况下这可能是真实的,但Jensen和他的同事最近的研究表明通过设计一种分子相似性方法,可以正确地提出逆向合成的断裂路径——达到88%的准确率,并且在不明确学习化学知识的情况下(表1;图2)。这种方法的美妙之处在于使用了一种成熟的分子表示系统和相似性指标,例如Morgan指纹和Tanimoto指数,来在包含40,000个反应的数据库中识别查询分子的合成路径匹配。鉴于例行程序的一个关键步骤是从知识库先例中提取反应位点信息,因此对于任何给定的查询分子,只能期望得到平均的逆向合成策略。正如作者们所认识到的,基于规则的工具的这个特点限制了该方法的适用性——它忽略了全局分子表示,因此忽略了可能使给定目标的机械上正确的反应变得不可行的官能团冲突。此外,这些方法不利于进行创造性的断裂,并且在超出已知化学范围的操作时产生较高的不确定性——这在将相似性搜索应用于不同的药物发现背景下也被观察到。在这种特殊情况下,40,000个反应仍然是一个非常狭窄的搜索空间,并且相似性搜索可能会为需要罕见化学转化的分子产生不稳定的结果。此外,相似性值的解释是经验性的,并且与具体情况相关。通常情况下,很难定义一个将相关解决方案与不相关解决方案区分开的截断点,至少在先验上是不可能的,因为它需要对连续变量进行任意分类。也就是说,通过按Tanimoto指数值降序排列结果,可以提供一种吸引人的手段来筛选输出结果,并且可以应用于在计划多步合成路线时进行递归分解分子的快速数据挖掘解决方案。
有趣的是,这种简单的方法在性能上全面超过了基于相同反应知识库构建的神经序列到序列(seq2seq)模型。在这种方法中,通过两个递归神经网络将反应产物的SMILES字符串转换为其合成前体的SMILES字符串,这种算法松散地模拟了大脑突触,以确定预测所需的相关特征。虽然它在这个特定任务中的表现可能较差,但seq2seq方法确实具有价值,因为它消除了基于规则的方法的一些缺点。例如,它不需要明确分配反应中心,并且考虑到了表示为SMILES字符串的整个分子以学习合成规则。因此,该方法更有可能识别每个反应类中的官能团不相容性。它还能够更高效地处理更大的数据集,因为它不会详尽无遗地查询搜索空间——这是AI相对于相似性搜索的一个重要竞争优势。
改进深度神经网络的准确性,例如上述方法,可以通过将适合小数据的算法与提供更大的训练集相结合来实现。事实上,深度神经网络非常适合检查大数据集,并且通常能够提供准确的结果,前提是有足够大的信息体系可用于自动化特征工程和后续学习。然而,深度学习所提供的机会也伴随着代价:模型的可解释性通常较低,这阻碍了人类从AI中学习。这往往引起化学家对神经网络的“思维”过程的相关性产生怀疑,尽管人类的化学直觉也可以被认为是一个大部分是非确定性的、受到非书面规则驱动的“黑箱”。通过使用大量专利反应,开发了一种分层(多尺度)神经网络反应推荐方法,用于预测感兴趣分子中的第一步逆向合成断裂。与上述seq2seq方法不同,该方法将逆向合成问题划分为两个不同的任务。第一个神经网络仅用于分类反应类型。然后,第二种AI方法聚焦于确定适用于案例研究的适当反应规则,这种方法已被证明对整体方法的性能有积极影响。有趣的是,该流程与Jensen等人的流程相似;独立地,两项研究都得出结论,将分子的逆向合成规划分为不同的任务可以提高整体的预测准确性。
虽然上述方法被开发用于预测第一个逆向合成步骤,但实际情况通常要求递归,以考虑到多步合成。事实上,当考虑到获取给定目标分子所需的步骤数量以及每个步骤的特定官能团不相容性时,逆向合成规划很快就会遭遇组合爆炸的困境。因此,将基于规则的方法与智能的自主驾驶算法相结合,可以实现有效地探索化学反应性。在一个大数据应用中,使用了350万个反应来构建一个模型,该模型通过学习分子的官能团模式来预测反应和逆向合成。实施时,该方法结合了规则匹配的好处和直观性,并结合了一种AI,可以对未见过的分子和合成规则进行前所未有的推广性预测,并根据官能团的兼容性进行排序。令人印象深刻的是,这个AI在一个大规模验证集中找到了接近实验预期的逆向合成路径。尽管它受到了由于数据量巨大导致的噪声的影响,但其性能仍然令人印象深刻,对于药物发现等具有挑战性的应用领域具有很大的潜力。此外,这个系统是可以进行增量学习的,并且当新的反应数据变得可用时,可以通过不断提高准确性来持续改进。与基于规则的方法相比,这种基于AI的方法在预测准确性和可扩展性方面都具有明显的优势,并且有望在逆向合成领域推动进一步的研究和发展。
通过对一个包含40,000个反应的知识库进行相似性搜索,可以推荐逆向合成步骤。通过基于SMARTS的模式进行反应中心的比较,新形成的化学键也得以编码。然后,通过搜索已知反应中最相似的先例,对优先断裂进行微调。通过查询分子与知识库中所有实例之间的Tanimoto指数来量化相似性。较高的Tanimoto指数值表示所比较的分子之间更高的相似性。将反应物和产物的计算Tanimoto指数聚合起来,提供一个评分值,反映了转化与知识库中最近邻的整体相似性。
a | Segler等人开发的蒙特卡洛树搜索(Monte Carlo tree search,MCTS)方法使用了三个不同的深度神经网络(3N)作为策略。这些模型是通过扩展连接指纹(ECFP4)对一个包含数百万个反应的数据库进行训练的,该指纹考虑了局部和全局的亚结构特征。b | Chematica探索了一个包含约50,000个手动注释和精选反应的网络。在这个反应网格中,合成程序的搜索是由一个决策树进行引导的。节点代表构建块、中间体或目标分子,边表示连接这些实体的化学反应。我们提供了这两种方法进行的分析示例。
预测反应产物
准确预测有机反应结果与逆合成分析一样,是成功合成规划的核心。通常情况下,这是通过经验优化和结构-反应性数据的映射来实现的,这主要受到直觉的驱动。从计算的角度来看,通过分子表示挖掘化学反应性一直是合成有机化学界一个极具兴趣的研究课题。事实上,计算工具,特别是密度泛函理论(DFT),通过生成与分子的电子性质和反应性相关的物理化学描述符,为此类知识的产生做出了贡献。然而,根据理论的不同级别,计算往往会迅速变得繁琐且无法扩展,这促使机器学习研究的开展,不仅可以近似DFT的预测,还可以挖掘其中的信息。因此,开发能够“理解”构建块反应性并快速预测可能的反应产物的人工智能变得与确定合适的逆合成路径一样重要。有趣的是,这两个研究问题是相关的,可以通过类似的知识库来解决。然而,虽然基于人工智能的逆合成规划可以从生产性化学反应中导出,但对于反应/正向合成结果的预测来说很难达到同样的情况。这对于监督式机器学习模型的开发提出了即时的挑战,因为化学文献在偏向于生产性反应的同时忽视了没有产物的方法。任何给定的模型只有在见过所有可能的输出情景,即已成功和失败的反应,最好是定量的情况下(例如通过反应收率),才能真正具备普适性,因此报告失败的化学实验的重要性不言而喻。例如,Kayala等人开发的两阶段神经网络方法利用分子图来近似分子轨道并枚举可能的反应作为电子流。尽管该方法取得了有希望的结果,并利用“低层次”的理论概念作为描述符,但其实用性受到可用训练数据和需要手动编码机械规则的限制,这可能削弱了它的使用范围。
识别这些限制后,同一研究组在后续研究中人为增加了训练集,并利用长短期记忆递归神经网络自动提取特征并构建模型。或者,类似于用于预测逆合成路径的seq2seq模型可以具有高效性并提供准确的预测。在另一个应用中,Aspuru-Guzik及其同事开发了一种神经网络方法,通过构建块和反应物的拼接指纹,以极高的准确性(约85%)预测反应类别。然而,将该方法扩展到预测反应产物结构方面的结果则不太理想,准确率只有约50%。这可能是由于所使用的SMARTS表示法在描述反应机理方面的局限性所致。综上所述,数据清楚地突显了需要开发更高效的反应描述符的需求。此外,训练集中减少的反应种类可能限制了该方法的适用性。尽管一直在寻找广泛适用的人工智能平台,但值得强调的是,狭窄的模型不一定无用,而是可以应用于回答非常具体的研究问题,正如通过深度学习预测环氧化和大分子共轭产物的情况所示。因此,定义适用领域是至关重要的。可以确定的是,大多数报告的人工智能侧重于构建块和反应中心描述符,而忽视了需要全局背景才能真正理解反应结果的事实。例如,反应溶剂和温度的改变可以极大地改变主要产物的性质和/或提高产率,在几种情况下,这是合成化学家广泛理解的一个默契规则。因此,将所使用的溶剂和反应温度包含在描述符向量中可能会提高模型的性能。
在人工智能努力在湿实验领域赢得湿实验人员的可信度的时代,机器学习研究是否会朝着合成化学家能够理解的方向发展将是一个有趣的观察。为了克服以前方法的一些缺点并满足真正的化学直觉对人工推理的期望,Coley等人采取了一种新的方法。他们通过向反应数据库中添加具有化学可行性但消极的示例,并在生成人工智能之前自动提取反应模板来改进方法。这种方法通过一个两步工作流程实现。首先,他们使用一组查询反应物和反应模板计算出一个过于乐观的产物池。然后,他们使用神经网络将这些虚拟产物分类为真实或虚假。为了实现这一点,他们引入了一种新的描述符,用于编码反应中心中化学键阶数的变化,并使用局部化学背景来规范化来自美国专利(知识库)和测试集的反应。通过学习这种新颖的反应中心描述符,他们可以得到产物生成的可能性得分,最终可以通过所谓的softmax层转化为概率分布。该方法的准确率在排名最高的解决方案上达到了72%,这表明它具有实际效用,尽管与专家化学家取得的结果相比还有很长的路要走。然而,这种方法是现实可行的,因为在圆底烧瓶中通常存在多个竞争反应,但只有一个产物成为主要产物。因此,每个枚举的反应产物的低概率值可以解释为一个不纯的、产量低的反应或一个在人工智能适用范围之外的案例,因此导致低置信度/高预测不确定性。最近,通过包含溶剂信息和将所有相关物种描述为原子映射的分子图,他们实现了重要的性能提升和模型可解释性提升。他们使用卷积神经网络,能够在超过85%的情况下正确识别主要反应产物,每个分子仅需100毫秒的计算时间。该模型的性能不仅优于以前的人工智能模型,而且与人类专家相媲美。在开发最有希望的人工智能模型时,他们绕过了人类基准测试研究,而是将重点放在了回顾性评估或与基线和/或替代方法的比较上。尽管有价值,但这些比较通常并不作为人类信任的标准。在这个特定的案例中,人工智能模型和一个独立的专家化学家小组在提出反应产物方面表现出相同的性能,这表明了人工智能的实用性,尽管样本量有限,统计效力不强。
在机器学习的范畴中,反应产物收率的定量预测是一项较少研究的任务。相对于回归模型,分类模型更常被使用,这可能是因为后者需要在大量情况下准确且标准地测量反应收率。然而,要确保高质量的数据收集,对于从多个不同来源挖掘专利的情况来说,这是不太可行的,因此不太推荐使用回归方法。为了克服这一限制并充分利用高通量反应筛选的优势,Doyle及其团队分析了4,608个Buchwald-Hartwig交叉偶联产物,使用异唑添加剂进行了实验研究,并以此建立了统计学习所需的知识库。他们采用了机制无关的描述符,如量子化学特征,构建了一个能够预测反应产物收率的随机森林模型,并证明其胜过其他竞争方法。虽然随机森林已经使用了二十多年,但在当前深度神经网络时代,它们仍然具有竞争力,并且通常能够提供具有在药物发现领域中证明适用性的稳健估计器。随机森林的工作原理是从知识库中随机抽样数据,并利用所选描述符构建决策树。这种方法以处理不同长度的描述符向量和对实验信号噪声的容忍性而闻名。理想情况下,森林中的每棵树都与其他树解耦,以便在每个实例中获得数据的独特视角。然后,将各个树的预测结果合并以生成平均预测值(或共识类别)。与个体决策树往往会过拟合数据不同,随机森林由多个弱估计器组成,形成所谓的集成方法,可以平衡方差和偏差,从而获得更好的泛化能力。通过这项技术,Doyle及其团队进行了样本外预测,即对先前未见过的描述符进行了预测,并利用机器学习得出的研究假设产生了新的知识。此外,他们的研究还突出了两个重要点:一是强调使用有动机的描述符来构建相关的人工智能模型的重要性,二是强调需要使用控制模型来评估人工智能的有效性。在这方面,对抗性控制应被设计用于否定替代模型性能假设,并区分混淆变量/实验人为因素和具有化学意义的模式。合理的控制建议可以从良好的湿实验实践中找到,并已经被证明具有实用性。例如,在某个情况下,使用与化学见解无关的不同虚拟变量系统进行了验证,以验证随机森林作为Diels-Alder反应中位置选择性、位点选择性和对映选择性的真正高性能分类器(虚拟变量的准确性为74-83%,而Hammett-立体描述符的准确性为93%)。同样,相对于使用物理化学描述符来绘制反应性地形的模型,使用虚拟变量开发的随机森林模型在预测脱氧氟化反应结果方面的性能较差。
反应条件的优化
确定特定反应的最佳条件是现代合成方法学发展的关键方面。然而,在制备化学中,过程优化通常以非系统化和缺乏统计支持的方式进行,导致执行许多不必要的实验,仅获得有限的信息增益。事实上,化学反应的优化通常是基于先前的经验和化学直觉,并逐个探索一个反应变量。虽然这种方法对于具有有限独立变量的过程可能可行(可以争议地认为是多达四个变量),但对于更复杂的反应来说却不适用,因为关键是同时调整多个反应参数。实验设计方法提供了宝贵的工具,以克服单一变量变化查询的限制。与制备化学不同,化学工程和过程化学已广泛采用这些方法以高效地同时探索多个变量,特别是在反应溶剂优化方面。例如,基于DFT的速率常数计算结合线性回归模型,可以确定一种溶剂,使Menschutkin反应的速率常数增加了40%。值得注意的是,仅通过测试1,341种溶剂中的9种溶剂,就实现了这一结果——仅占搜索空间的0.7%。
精细的深度学习方法同样在这项高度相关且具有挑战性的任务中证明了其价值。以一项例子为例,Zare和同事展示了如何通过强化学习,即通过连续反馈方法最大化奖励的深度学习,通过迭代选择实验来高效确定优化的合成方案。在缺乏真实训练数据的情况下,人工智能在关键时候依赖于使用高斯过程对模拟反应进行预训练以近似反应结果。在实践中,这些数学函数认为在连续的反应活性景观中,小的反应参数变化会产生类似的反应结果,而不会产生陡峭的变化。虽然这是常见且合理的做法,但很难接受准确的模型可以从模拟的反应数据中生成。然而,通过对四个不同的测试案例进行反应参数建模——异喹啉合成、取代喹啉、核糖磷酸和氧化还原反应,并应用适当的反应条件选择策略来对反应活性空间进行抽样,成功证明了这一点。此外,该方法与已建立的算法(例如稳定噪声优化法(SNOBFIT))相比具有竞争力,只需三分之一的迭代次数即可获得类似的结果。然而,由于大多数有机反应需要优化多个参数,我们认为该方法需要进行更彻底的现实世界验证和扩展的概念验证研究,因为在这些反应中只对三个参数进行了建模,而其他几个参数是固定的。尽管如此,将学习算法与微滴基化学相结合,提供了前所未有的数据生成速度,很可能与流动化学结合,在未来将进一步应用。显然,这种方法在本质上与逆向合成和反应产物预测中使用的方法有所不同,因为它包含了一个反馈机制,可以进行动态模型更新和迭代实验选择(图5a)。
a | 使用Weisfeiler-Lehman图核的深度学习(卷积神经网络)预测反应-产物混合物中的概率分布。首先,将反应物分子(构建模块、催化剂、碱、配体和溶剂)描述为原子映射图,然后进行数据编码。深度学习方法计算了键编辑的可能性得分,并考虑到最有可能的变化,通过列举生成所有可能的产物集合。基于化学价规则,一个新的卷积神经网络对先前预测的物种进行重新评分,生成概率分布。具有最高概率的分子根据统计模型对应于主要产物。b | 随机森林模型(决策树集合)通过识别最佳的碱、催化剂和添加剂组合来预测C-N偶联反应的结果。高通量反应筛选提供了用于从密度泛函理论(DFT)描述符构建机器学习模型的化学数据(目标变量),计算这些描述符可能计算成本高且缺乏动机
无论采用何种方法,用于高效反应条件优化的人工智能应该在输出方面模拟或理想情况下增强化学家的模式识别和决策能力。传统的机器学习方法通过使用数千甚至数百万个训练反应来构建静态模型,但有人认为在动态问题中,采用主动学习的方式只利用一小部分训练数据即可获得相似的竞争性结果。主动学习与经典机器学习的不同之处在于,它引入了实验选择策略,根据预定目标倾向于开发或探索搜索空间。这个观点打破了一个错误而普遍的观念,即人工智能只能在大数据环境中发展。事实上,并非所有数据都具有相等的价值,而且在机器学习的角度上,相似的训练数据可能被认为是冗余的或无信息的。因此,更多的数据并不一定会导致更好的预测模型;相反,如果只使用信息量大且高质量的数据进行训练,学习算法的性能可能会提高。因此,主动学习的目标是将搜索空间压缩到最低限度,通过快速反馈循环吸收相关知识,并通过使用计算成本较低的精简模型来即时设计实验。重要的是,这样的算法可以与自动提取学习信息的分析方法相结合,为快速方法优化循环提供理想的平台。
在2018年,Aspuru-Guzik及其同事描述了一种名为Phoenics的主动学习方法,用于化学反应的优化。该方法将贝叶斯优化和密度估计的概念结合,通过建立神经网络来近似目标变量(如收率)的概率分布,基于已有的知识库。简而言之,贝叶斯优化能够有效地在连续领域中优化目标函数,通过计算替代模型来量化每个实例的不确定性,并将不确定性与实验选择策略相结合。因此,Phoenics能够通过混合探索(高不确定性/信息增益但成功机会较低)和开发(低不确定性/信息增益但成功机会较高)的采样策略,提出实验方案,以解决低维到高维空间中的优化问题。该方法的运行时间与研究的复杂性成线性关系,并通过批量提议反应而不是逐个提议来最大程度地实现对局部最优解的识别。这种方法可以并行计算黑盒获取函数,采用不同的实验采样策略。将Phoenics应用于自催化反应的7个参数的优化中,展示了该方法的价值,相较于其他方法,只需大约100次评估即可找到最优参数。然而,如果用户没有方便地使用自动合成平台,该方法可能存在一定限制。
可以理解的是,在没有自动化设备的情况下,针对消耗高价值化学物质的反应进行优化必须进行少量迭代,并且可能利用非常有限或事先不存在的知识库。为了减轻之前方法的一些缺点并使AI的使用更加普遍,Reker等人最近报道了LabMate.AI(图5c),这是一种自我进化的算法,以较低的计算成本提供可解释的机器智能,并利用极小且随机提供的真实数据知识库(搜索空间中的
a | 传统和主动学习的比较,它们的优点、缺点和适用领域。b | Phoenics软件的工作流程。实验数据(反应条件和结果;绿色点)用于评估和探索先前未知的目标函数的搜索空间(蓝色曲线;步骤1)。实验数据经过贝叶斯神经网络处理,生成数据密度的概率连续模型(步骤2)。然后计算一个替代模型(绿色曲线),根据手头的实验数据和模拟描述目标函数(步骤3)。最后,替代模型通过黑盒估计函数(紫色和红色曲线)进行挑战,根据选定的超参数探索和/或利用搜索空间。然后选择一批反应进行实验验证(红色菱形),并将结果输入算法(步骤4)。Phoenics在预定的评估次数内进行迭代运行。c | LabMate.AI使用随机森林选择实验。该方法需要进行有限次随机实验来构建知识库,并在每次迭代后进行完全的重新训练。该技术通过搜索反应活性空间(黑色密度图)对C-N交叉偶联进行了前瞻性验证。
发现新颖的反应活性
尽管识别逆向合成途径、准确预测反应产物以及针对目标值优化反应条件都需要深入理解化学反应性,但这些任务在一定程度上可以形式化处理,只要有适当的知识库和描述符可用。然而,让人惊讶且具有挑战性的是,人工智能在加速新颖反应活性的发现方面的应用,即使从人类的标准来看,这方面的预测也一直被认为是高度不可预测的。理所当然的是,这个挑战是多方面的,因为在这个领域中,适用的启发式规则和特征工程要求方面的先前研究非常有限。此外,如果主动学习的人工智能要成功地自主发现新的反应活性,就需要对偶然性进行适当的形式化,而这一点甚至对于化学专家而言仍然是一个未解决的问题。偶然性可以被宽泛地定义为偶然事件的发生,例如新反应的发现,因此通过随机搜索反应活性空间,我们可以为意外的发现和有动机的后续实验设计提供一个可行的平台。此外,假设意外事件的发生概率基本上很低,增加这些事件的数量或人为加快其发生频率,从原则上来说,可以提高偶然发现的速度和频率。实际上,通过应用这个概念,并同时进行成千上万次的随机反应,我们发现了一种新的光氧催化C-H芳基化转化,从而成功合成了苄胺。此外,使用流动反应器可以极大地加速意想不到的反应活性的发现。总的来说,这些研究表明偶然性是可以被引导的,而且通过在算法中充分利用随机性,我们可以充分发挥其在合成化学中的潜力。遗传算法、粒子群优化和蚁群优化等启发式算法可以通过迭代先前的实验来选择下一个实验,类似于主动学习,但不需要构建模型和添加数据来优化后续选择。然而,我们是否能够人为地控制偶然性呢?实际上,化学领域已经具备了在实验确认之前通过计算进行发现设计的工具。通过将偶然性、异常值的检测和模型异常与伪随机数连接起来,我们可以以确定性的方式来决定主动学习中的选择过程从一开始就如何展开。凭借这些工具,我们有望开辟通向新反应活性发现的新研究方向。
2017年,Cronin及其团队采用了一种无模型的方法,通过闭环系统自主探索化学空间,并评估化学转化的反应性。他们使用了一个简单的指标,通过比较预期和实际红外光谱的均方误差,高效地评估了信息增益,并仅利用了所有可能反应/实验中的19%来探索反应空间。这清楚地展示了即使没有显式地从基础化学中学习概念,简单的算法在实验设计中也可以非常有效。最近,他们将有机合成机器人与一组算法相结合,仅利用搜索空间的10%作为知识库,并根据预定义的起始物质约束来探索反应性。
从算法的角度来看,该方法使用了两种不同的技术。首先,他们使用支持向量机对一组起始物质之间的假想化学转化进行分类,判断其是否“具有反应性”。由于特征是离散的(例如苯胺、苯甲醛),而不是连续的实数值,机器学习方法需要对化学物质进行编码,类似于位串,即由0和1组成的集合,其中1表示存在该化学物质,0表示不存在。这种编码方法类似于独热编码,可以方便地将起始物质纳入机器学习流程,而无需进行大量的化学相关描述符工程化。然而,这种方法的缺点是需要事先定义整个搜索空间,因为模型的泛化能力有限。这是因为位串的长度是固定的,无法在不重新训练新的人工智能模型的情况下进行修改。因此,该模型只能对预先选定的起始物质组合进行反应性预测。此外,这种离散化处理方式也限制了识别与给定输出相关的潜在化学相似性的能力。
其次,他们使用线性判别分析算法探索反应性空间,并选择模型尚未完全理解的实验进行合成机器的确认。有趣的是,他们以100个反应为一批进行实验选择。人们可以质疑每个反应是否具有相同的信息量,无论是立即使用还是用于更新人工智能模型。在当前设置下,一些后续的反应可能已经提供了冗余的信息,如果之前的实验结果被用于改进模型的话。实际上,通过这种主动学习方法,可能只需要更少的反应迭代次数就可以获得类似的化学空间探索结果。
然而,正如任何主动学习方法一样,我们可以认为模型的不确定性是该方法的价值所在,因为它与人工智能改进的信息增益紧密相关,并与统计学驱动的确定性偶然发现相关联。例如,采用这种无偏化学策略后,发现了四种新的化学反应。简而言之,这些方法不仅提供了一个有价值的平台,加速了新化学品的发现,而且增强了化学直觉,尤其是通过识别不可预测和新颖的化学反应。
在自动反应筛选和分析中,液体处理机器人利用一个包括构建块、催化剂、配体、碱和溶剂的起始物质池。通过计算一串位的字符串,将所有起始物质转换为可计算的单位,类似于一位有效编码,其中1表示存在该起始物质,0表示不存在。这样生成的向量对反应进行机器学习分类编码。采用支持向量机(SVM)分类器,通过计算个别起始物质的贡献和记录的分析数据,预测给定反应混合物的反应性(是否具有反应性)。所获得的数据用于更新第二个算法(线性判别分析,LDA)的知识库。LDA分析化学空间,并根据探索策略选择下一个实验。这个过程在一个闭环中运行。通过类似的策略,利用神经网络算法,已经发现了四个新的反应。
展望
尽管本综述的核心集中在合成有机化学中人工智能的最新进展上(Box 2),但这里讨论的方法在其他领域也有较长的应用传统。图像分析和语音识别只是两个对受众更为熟悉的领域。这些人工智能方法以及量子计算加速计算的承诺是否会颠覆合成化学研究的进行方式,这仍然是许多人渴望看到的问题;化学直觉的更紧密融合和形式化将是其成功的关键。此外,需要建立起机器学习科学家和实验室化学家之间的有效合作,以促进沟通,允许整合数据库中缺失的信息,以统计学上相关的方式解决挑战,并逐步建立化学家对机器学习工具的信任。
尽可能披露代码和数据集是至关重要的,不仅用于基准测试的目的,还作为科学透明性的一种措施,有助于发展下一代化学抽象,并在坚定怀疑论者中建立信任。虽然人工智能在化学和药物发现方面取得了一些令人印象深刻的成果,但我们认为机器学习只能是一种有助于提高生产力的有价值工具,不能替代人类的直觉,也不是万灵药;失败将是技术成熟过程的一部分,并且必须被学术界所接受,与成功一起被视为发展更强大和准确方法的机会。为实现这一目标,收集和整理高质量且标准化的数据将非常重要,无论结果是积极还是消极,都应该在存储库中记录下来。目前文献中对积极结果的偏见阻碍了在化学中开发更多机器学习应用和架构的发展。类似地,在部署人工智能之前,必须提出正确的研究问题,并对其适用领域、优点和限制有充分的了解,以评估特定任务中给定算法的效用和适用性。为此,机器学习实践中常规包含对抗性控制,可以区分数据伪迹的利用和真实相关性,这是更好验证人工智能的一步,无论方法是完全可解释的还是一个黑匣子。
本文介绍的人工智能(AI)技术为解决合成有机化学中的重大挑战提供了可行的解决方案,而这些挑战在历史上通常需要深入的化学直觉。当前的硬件、改进的算法和不断增加的存储容量使得能够超越人类的能力来审查变量,并在小型和大型数据集中发现隐藏的模式。当前和未来的方法最终将帮助实验室化学家设计高效的合成路线(反向合成和正向合成预测),改进它们(反应条件的优化)并发现新的化学物质。
随着高通量机器人系统的帮助,科学发现正在以越来越快的速度展开。我们能够生成和整理足够的数据,以供各种深度学习启发式方法使用,这是所有在本文中讨论的神经网络应用的共同基础。目前已经多次证明并广泛接受,机器智能能够有效分析大数据。然而,在健康科学领域,大部分发现要么是偶然的,要么是基于信息量丰富的小数据集。因此,如何更好地利用偶然发现仍然是一个挑战。最近的研究显示,通过适当的算法,我们可以揭示出新的、前所未知的化学现象。在化学科学中,主动学习的应用还相对较少,但我们预见它在未来将发挥重要作用。主动学习可以帮助我们检测异常值,发现颠覆性的新发现,并在极小数据集中发现微妙的模式。此外,在有效遍历稀疏搜索空间方面,迁移学习方法可能对合成化学非常有用。它可以通过建议适当的配体来改善金属催化反应,并作为现有技术的补充,提供全新的反应条件或产物分布。将这些基于计算机的技术与机器人相结合,实现自动化的反应筛选和相关任务,可以极大提高学术界、制药、化工和材料科学公司的化学实验室生产效率。标准化化学编码并与定制化合成硬件相结合的工作正在进行中,并且这为实施人工智能-机器人界面的实用性提供了可靠的证据。此外,已经提出了原型机器人-机器人界面,可以实现实时多任务化学操作。物联网技术有望彻底改变化学研究,并将其融入整体发展的框架中。在这种框架下,人类研究人员可以远程监控化学过程。然而,人工智能的真正影响将通过在各种实验室环境中的广泛应用逐渐显现,尤其是在湿实验室从业者中。例如,最简单的无监督学习方法,如降维启发式方法,不仅可以极大地帮助研究人员设计符合项目需求的更好实验,还可以检测异常值,并为部署监督学习启发式方法提供起点,尤其是在数据访问受限的情况下。总体而言,我们设想未来将实现数字化和实验化学的无缝融合,以实现更加高效、基于概率的研究,并找到化学领域面临的重大挑战的可行解决方案。
智能机器人通过现场或远程人类监督进行通信,以制定实现特定目标的最佳实验方案。该网络包括反馈循环,促进对生成数据(合成、分析或其他)的主动学习,以获取高价值的化学物质。
来源:新浪财经