NatureLM:驱动科学发现与创新的跨领域AI大模型

B站影视 日本电影 2025-03-22 00:12 2

摘要:在跨学科研究中,打破知识壁垒一直是科学家们追求的目标。如今,微软研究院科学智能中心推出的 Nature Language Model(NatureLM)为这一目标带来了新的曙光。NatureLM 是一种基于序列的自然科学基础语言模型。通过整合生物学、化学和材料

编者按:在跨学科研究中,打破知识壁垒一直是科学家们追求的目标。如今,微软研究院科学智能中心推出的 Nature Language Model(NatureLM)为这一目标带来了新的曙光。NatureLM 是一种基于序列的自然科学基础语言模型。通过整合生物学、化学和材料科学等领域的海量数据,NatureLM 构建了一个统一的知识框架,能够实现小分子、蛋白质、材料、DNA 和 RNA 等不同科学领域的生成与优化,为跨学科研究和前沿科学探索提供了强大助力。


自然科学作为人类探索自然现象与开发利用自然资源的基石,构建了一个庞大而复杂的知识体系,其研究范畴横跨物理、化学、生物以及材料科学等多个重要领域。在长期的发展进程中,各领域逐渐形成了自身独特的数据表达方式、研究方法和理论体系。然而,相对独立的知识体系虽然在一定程度上便于学科内部的理解与交流,但在无形中成为了阻碍学科间交叉研究的壁垒。
从基因功能的深入探究到新材料的创新设计,前沿的创新成果往往依赖于不同学科知识与技术的有机整合。由于业界目前缺乏一个能够有效连接各学科的统一框架,科研人员的视野常常局限于自身的专业领域,导致跨领域间的沟通与协作存在诸多障碍,也限制了科研人员从多领域汲取灵感并促成突破性发现的可能性,从而在一定程度上制约了科学整体发展的进程。
为此,微软研究院科学智能中心 (Microsoft Research AI for Science) 开发了 Nature Language Model (NatureLM),致力于整合多个自然科学领域的建模工作,以打破学科壁垒,激发跨学科的协同创新。NatureLM 是一种基于序列的自然科学基础语言模型,在涵盖了小分子、蛋白质、材料、DNA 以及 RNA 等诸多自然科学的关键领域的同时,开创性地深度融合了自然的语言和人类语言,为科学发现与创新提供了一种全新、高效、跨学科的 AI 工具,极大地拓展了科学研究的边界和可能性。

Nature Language Model: Deciphering the Language of Nature for Scientific Discovery

论文链接:

项目网站及更多应用:

NatureLM 是基于 GPT 形式的生成式 AI 而构建的,它通过多领域(包括生物、化学和材料科学等)数千亿条精心挑选的无标记数据进行预训练,扩展了现有大语言模型的能力,并保留了原始模型的语言能力。然后,该模型还在数百万对科学问答上进行了指令集微调,优化了其理解文本提示并生成语境匹配回应的能力。最终,科研人员可通过强化学习或领域定制微调等技术,进一步将 NatureLM 定制为特定任务的优化版本,以实现更出色的性能。
NatureLM 提供了三种不同规模的版本——1B、8B和46.7B(一个8x7B专家混合模型)参数,可以为不同计算资源和项目范围提供灵活选择。在22种测试任务中,大版本模型通常表现出更强的性能,为小型实验室和大型研究团队提供了可扩展的解决方案。

图1:NatureLM 的训练数据来源、模型架构设计以及应用场景

化合物分子设计:为靶点蛋白生成化合物

根据输入的蛋白质序信息(比如蛋白质名称或者氨基酸序列)设计小分子化合物是药物研发领域充满巨大应用潜力的一项挑战,尤其是在缺乏结构信息或结构数据不完整的情况下。对此,NatureLM 可通过输入蛋白质序列,生成完整分子或分子片段。图2展示了利用 NatureLM 进行分子和分子片段设计的示例。用户可以通过输入对应的文本、蛋白序列或小分子片段生成目标分子。

图2:为靶点蛋白生成小分子配体的示例。


AutoDock Vina 是被用于分子对接评估的程序,可以估算生成化合物(配体)与蛋白质的结合亲和力,其中评分越低意味着结合亲和力越强。于 AutoDock Vina 上进行的实验结果表明,NatureLM 在生成化合物方面的表现优于现有算法。

图3:Autodock Vina 评估上的对接分数展示


进一步的分析显示,大规模参数版本的 NatureLM 能够稳定生成具有更优结合亲和力的化合物,同时保持较高的合成可行性(如视频1所示)。

视频1:生成和磷酸二酯酶(PDB id: 5shf)结合的小分子配体


对于分子片段生成,研究员们在实验中选取了2024年5月之后发布的三篇论文中的案例,并确认它们未包含在 NatureLM 的训练数据中。通过整合靶标蛋白序列与预定义功能片段,NatureLM 实现了分子片段的定向生成。如图4所示,大参数架构的 NatureLM (8x7B)在生成性能上展现出了显著的优势。

图4:小分子片段生成的对接分数对比

蛋白设计:生成能与血红素结合的蛋白质

血红素是一种十分重要的辅因子,在氧气运输、电子传递以及酶活性调控中发挥着关键作用。研究员们使用 NatureLM 进行了血红素结合蛋白质的设计,并探索了两种设计方式:1. 基于文本:通过输入文本描述直接生成能够结合血红素的蛋白质序列。2. 基于血红素的 SMILES 表达式:以血红素的 SMILES 表达式作为输入,代替其名称,设计能够与其结合的蛋白质。
这两种方法为血红素结合蛋白的设计提供了不同的视角,体现了 NatureLM 在蛋白设计领域的灵活性与实用性,并且验证了 NatureLM 对语义的充分理解。此外,生成序列后可使用 NatureLM 的蛋白质描述功能对生成的序列进行注释。根据注释结果,仅保留包含与血红素相关关键词的序列做进一步分析,再利用 Protenix 预测生成蛋白质与血红素基团的复合结构,然后对剩余的候选蛋白质进行评估。

图5:蛋白质设计的提示词


上述两种生成方法能够分别发现不同潜力的蛋白质,以第一个生成的蛋白质为例(详见视频2)。生成的蛋白质序列与 NR 数据库(Non-redundant protein sequences)的相似性为0.55。尽管该序列的相似性处于中等水平,但其预测的三维结构却与现有相关蛋白质的结构高度相似。具体而言,其中间和右侧结构的均方根偏差(RMSD, 使用 ChimeraX 软件的 matchmaker 命令计算得到)仅为 1.068 Å,表明结构预测的准确性较高。值得注意的是,该蛋白中有两个组氨酸残基位于血红素中心铁原子的附近。这一结构特征可以保障蛋白形成关键的配位键,从而赋予蛋白质潜在的功能活性。

视频2:基于文本指令设计的血红素结合蛋白

视频3:基于包含 SMILES 表达式的小分子指令设计的血红素结合蛋白

具有超高体积模量(bulk modulus)的材料因其卓越的刚性和不可压缩性而备受重视,并在极端环境、工业工具和先进工程中起到关键作用。为了测试 NatureLM 生成此类材料的能力,实验要求其设计一种目标体积模量为 400 GPa 的材料,这一数值与钻石的刚性相当。
NatureLM 的输出包含材料组分及其空间群(space group),而材料的 3D 结构至关重要。为了将 NatureLM 的输出转化为具体的材料 3D 结构,研究员们对 NatureLM 做了进一步微调,开发了 NatureLM-Mat3D 模型。该模型能够自回归地生成材料晶胞的晶格参数和相对原子坐标。随后,研究员们使用 MatterSim 对生成的材料进行评估,包括计算其 energy above hull (e_hull)和体积模量。
密度泛函理论(DFT)计算结果显示,上述材料体积模量值分别为 390 GPa 和 394 GPa,与目标值 400 GPa 非常接近。除了实现体积模量目标外,生成的两个结构与 Materials Project 数据库中可用的结构相比也是新的。这种新颖性突显了 NatureLM 在发现具有卓越机械性能的新材料方面的潜力,扩大了材料设计与创新的范围。

图6:NatureLM 设计的两款材料


尽管 NatureLM 在生成材料成分以及预测性能方面表现出极大的潜力,但其空间群预测的准确性仍有提升的空间,这一技术瓶颈可能会影响生成的 3D 结构与性能评估的精度。即便如此,该方法依然具有极高的研究与应用价值,因为它显著缩短了探索和识别新材料成分所需的时间,并降低了计算成本。
在越来越复杂的科学研究环境中,跨学科协作愈加重要。NatureLM 的出现为打破学科壁垒带来了新的机遇,也给科研人员提供了强大的工具,可以有效推动创新,助力未来科学发现。随着人工智能与自然科学研究的深度融合,未来科学突破必将更加迅速,创新也将更加无界。微软研究院期待与全球科学家、工程师和创新者携手合作,共同开启充满潜力与挑战的科技未来。

来源:微软亚洲研究院

相关推荐