Nature Machine Intelligence颠覆有机化学研究范式,上海交大发表化学合成大语言模型

B站影视 日本电影 2025-08-08 17:36 1

摘要:依托上海交通大学 AI for Science 科学数据开源开放平台,在上海市人工智能重大专项的支持下,人工智能研究院 AI for Science 团队许岩岩副教授、金耀辉教授、杨小康教授等人联合上海交通大学变革性分子前沿科学中心朱峰副教授团队,在人工智能化

白玉兰化学合成大模型(Chemma)加速有机合成全流程。

作者丨上交大AI4S 团队

依托上海交通大学 AI for Science 科学数据开源开放平台,在上海市人工智能重大专项的支持下,人工智能研究院 AI for Science 团队许岩岩副教授、金耀辉教授、杨小康教授等人联合上海交通大学变革性分子前沿科学中心朱峰副教授团队,在人工智能化学有机合成领域 (AI for Chemistry取得重大原创突破。相关研究于2025年7月1日,以“Large language models to accelerate organic chemistry synthesis” 为题在线发表在Nature Machine Intelligence ,展现通用人工智能大模型赋能有机化学合成的巨大潜力。

自2023年初,人工智能研究院 AI for Science 团队开始构建白玉兰科学大模型,涵盖化学合成、蛋白质结构解析、流体力学、城市科学等基础与新兴学科。作为白玉兰科学大模型的成果之一,该研究首次实现化学大语言模型加速有机合成全流程。无需量子计算,仅依靠化学知识理解和推理能力,实现了在单步/多步逆合成、产率预测、选择性预测、反应优化等多个基准任务上,超越以往所有已知的最佳结果。建立了 “Co-Chemist” 人机协作的主动学习框架,在一项全新的、未曾报道的 Suzuki-Miyaura 交叉偶联反应中,仅用15次实验就成功找到了合适的配体和溶剂,实现了67%的分离产率,充分验证了其在加速真实化学发现中的巨大价值,解决了实验科学中反复试错的重大难题,为大型语言模型加速有机化学合成提供了新的研究范式和方法。

论文信息

Zhang, Y., Han, Y., Chen, S. et al. Large language models to accelerate organic chemistry synthesis. Nat Mach Intell 7, 1010–1022 (2025).

模型在线试用网址

01

变革性化学研究范式

化学合成作为创造变革性分子的基础方法,对生命科学、材料和能源的各个领域产生了重大影响。尽管过去几十年化学仪器取得了长足进步,但面对浩瀚的反应空间和复杂的分子结构,化学家们仍需反复查阅文献、设计方案并进行湿实验验证。为了改变这一现状,传统的 AI 方法,如基于密度泛函理论(DFT)计算或贝叶斯优化的模型,虽然在特定任务上取得了进展,但存在明显局限:它们通常严重依赖专家知识进行特征工程和分子参数化,需要高通量实验平台提供大量数据,并且大多只能在专家预先设定的封闭反应空间(如一个固定的配体或溶剂库)内进行优化,这可能导致错过性能更优的未知选择。

近年来,以 GPT 为代表的大语言模型展现了强大的通用能力,但在化学领域的应用仍处于初级阶段,其化学专业能力有限,难以自主探索和优化未报道的反应。为了克服上述挑战,研究者们提出了一个核心问题:我们能否构建一个深度融合化学知识的大语言模型,它既能像人类化学家一样从 SMILES 分子式和反应数据中理解化学结构和规律,又具备 LLM 的强大生成能力,从而能够在开放的反应空间中进行真正的探索与发现?因此,该研究设计提出白玉兰化学合成大模型(称之为 Chemma ),旨在成为能够与化学家互动、辅助实验决策、并最终加速有机合成进程的生成式AI助手。 Chemma 能从 SMILES 序列中学习分子表征,理解化学结构;通过海量反应数据预训练, Chemma 能像化学家一样学习反应物、产物和条件之间的复杂关系; Chemma 的生成能力使其能够设计全新的分子(如推荐新配体),从而突破预设条件的限制,指导探索新反应(下图所示)。

图1: Chemma 协助有机化学合成的功能与应用场景。科学家可以围绕四项主要任务与 Chemma 交流,包括正向反应预测、逆合成、条件生成和性能预测(如产率和选择性)。

02

Chemma 加速有机合成全流程

Chemma 之所以引发科研界广泛关注,并不仅因为它的理念先进,更在于它在真实任务中的表现令人惊艳。在 USPTO-50k 数据集上, Chemma 在单步逆合成任务中实现了72.2%的 Top-1 准确率,显著优于文献报道的最优 Top-1 准确率57.7%。在多步合成测试中, Chemma 成功设计预测最新报道的 Pirtobrutinib 和 Ritlecitinib 等药物分子的全合成线路。对于 Osimertinib 等已报道成药分子还可设计新的合成线路,并通过专家验证。对于产率预测/选择性预测(区域选择性与对映选择性)任务, Chemma 无需 DFT 特征,对高通量实验数据预测 R2 达到了0.88;在2010-2024年的 Pd 催化文献数据产率预测场景中,预测 R2 达到了0.75。对于配体/催化剂推荐任务, Chemma 可在预设条件下给出最优配体,在多数测试组合中,其推荐配体带来更高中位产率,同时准确率达到93.7%。依托变革性分子前沿科学中心, 针对特定反应, Chemma 可在线设计生成20多种催化剂,10多种试剂,和多种添加剂,同时实现实验优化,快速提高化学实验效率。

图 2: Chemma 在不同有机合成任务上的性能评估,包括正向反应预测、逆合成、条件生成和性能预测(如产率和选择性)。

图3: Chemma 多步合成线路设计

03

Chemma “合成数据”:助力有机化学数据稀疏场景的产率预测

在有机合成领域,反应产率的准确预测对于指导实验设计和加速新反应发现具有重要意义。然而,传统机器学习方法在面对数据稀缺时往往力不从心,制约了其在真实科研场景中的应用潜力。为了突破这一限制,我们提出了 “Chemma 合成数据” 的策略。借助生成式化学大模型 Chemma ,我们不仅能够补足训练数据的缺口,还能显著提升模型在低数据量条件下的预测能力。

图 4 深入比较了 Chemma 与经典机器学习模型随机森林(RF)在三个经典反应—— Suzuki-Miyaura 、Buchwald-Hartwig 、C-H arylation ——中的产率预测表现。图4 D-E 显示,随着训练数据从 90% 缩减到 5%,两种模型的预测准确率都有所下降,但关键是: Chemma 在不同数据比例下的表现都全面领先于 RF!即便在数据极度稀缺的情况下, Chemma 依然能稳住预测效果。这说明它能更聪明地“榨干”每一条数据的价值,把“小样本”变成“大能量”。

图 4: Chemma 在不同高通量数据集上产率预测效果。D、E、F:随机划分;F、G、K:按照底物划分;H、I、L:按照反应配体划分。

04

Chemma 表征加速文献产率预测:跨越“低精度”鸿沟!

传统的机器学习模型在高通量实验(HTE)数据上大显身手,在产率预测中表现出色。

但问题也很明显:高通量数据获取代价高昂,变量空间受限,无法全面代表实际研究场景。

于是,化学界开始把目光投向了一个“宝藏”领域——公开发表的化学反应文献与数据库。

这些数据覆盖面广,来源真实,理论上能支撑更广泛的建模与应用。然而,现实并不理想。现有的机器学习方法在处理文献数据时效果平平,模型性能远低于在HTE数据集上的表现,成为阻碍化学智能化发展的关键瓶颈。

为了打破这一困局,我们测试了 Chemma 表征在文献数据上的产率预测能力。实验采用 Pd 催化羰基化反应数据集,该数据共包含 2,512 条真实反应记录,来自 113 篇文献,内容包括底物、产物、催化剂、配体、碱、氧化剂、添加剂、溶剂等丰富信息,数据分布中低产率(0–10%)和中产率(70–80%)反应占比突出极大考验模型的识别与拟合能力。为了进一步验证 Chemma 的泛化能力,我们设置了具有挑战性的 “文献分源外推测试”:

·训练集只包含文献编号≤ 100 的反应

·测试集全部来自文献编号 > 100,完全不重叠

结果很惊喜!Chemma 大幅领先现有模型, Chemma 在该任务中RMSE取得16.16,R2达到0.74。相比 Li 等人论文中 R2 0.51, Chemma 提升了 47.1%!因此,面对复杂、分布不均的文献数据, Chemma 依然展现出稳健的建模能力与化学理解力。

图 4: Chemma 在文献数据上产率预测效果。

05

Chemma “数据生成器”:破解有机化学数据稀疏难题的创新引擎

除了预测能力之外, Chemma 还可作为“数据生成器”,在数据稀疏的情况下,通过生成高质量伪数据来提升传统实验优化算法(BO)的性能。实验验证在 Suzuki–Miyaura与Buchwald–Hartwig 反应中大幅减少了实验次数,相比传统 BO 算法需要50次以上, Chemma-BO 仅用10-15次实验就能达到98%以上的产率,反应优化效率提高50%

图 5: Chemma 合成数据用于提高产率预测和反应优化,评估三种不同方法(Chemma-BO、GPT-4和BO)在 Suzuki–Miyaura 与 Buchwald–Hartwig 反应上的平均累计最大观察产率。

06

开拓未知反应边界: Chemma 在新反应合成设计中的自主探索

该模型不能能够实现反应预测,还能从未知反应空间中探索实现反应设计和优化。在变革性分子前沿科学中心朱峰副教授的大力支持下,团队开展了湿实验验证。对于一个未报道 N 杂环交叉偶联反应,研究人员将 Chemma 集成入主动学习框架,探索反应适配的配体与溶剂。通过“人-机协作”的主动学习循环,第一轮尝试失败后, Chemma 进行实验数据反馈和在线微调,在第二轮便精准地推荐了高效的配体(PAd3),最终仅用15次实验,就成功实现了67%的分离产率。此任务展示了 Chemma 在开放反应空间中辅助探索未知反应条件的潜力。

图 6:Chemma 驱动的反应探索和优化的主动学习框架。通过主动学习框架对未见文献报道的反应(α-芳基 N 杂环的合成)进行配体和溶剂的探索。

07 Chemma 驱动化学研究新范式

研究团队另辟蹊径,将化学反应视作自然语言任务,学习其结构与规律,在多个有机化学任务中表现优异,展现出良好的人机协作能力。特别是在无需 DFT 的条件下实现产率与选择性的精准预测,以及在开放空间中完成自主优化,充分证明了语言模型在化学合成中的适用性。

作者信息

上海交通大学人工智能研究院博士生张雨为本文第一作者,变革性分子前沿科学中心博士生韩阳和陈帅在湿实验方面做出重要贡献。人工智能研究院许岩岩副教授、金耀辉教授、杨小康教授、上海交通大学变革性分子前沿科学中心朱峰副教授为本文通讯作者。丁奎岭院士对本研究给予了宝贵的建议和指导,本研究得到了上海市人工智能重大专项资助,以及上海交通大学 AI for Science 科学数据开源开放平台支持。

团队介绍

上海交通大学人工智能研究院 AI for Science 团队在杨小康教授、金耀辉教授、许岩岩副教授带领下,包括十余位博士后与硕博研究生,重点研究生成式人工智能,特别是科学大模型赋能化学研究,针对有机化学合成、自动化实验等重大问题提出了一系列创新解决方案。团队发布了首个化学合成大语言模型——白玉兰科学大模型,是首个具备反应生成与“人在环路”反馈优化能力、能够指导实验探索的化学大模型,具有分子设计、逆合成线路规划、反应条件生成、反应产率预测、实验条件优化迭代等化学合成全功能。团队研究成果已发表于Nature Energy,Nature Computational Science (封面), Nature Machine Intelligence , Science Advances , 以及 CCF A 类会议。团队所属的上海交通大学人工智能研究院、人工智能教育部重点实验室计算资源丰富,积累大量数据和基础模型,并与化学与化工学院、变革性分子前沿科学中心团队紧密合作,形成交叉学科研究体系。

//

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载! 公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

来源:AI科技评论一点号

相关推荐