摘要:2018年,中国学者谢天(北京大学本科校友)在麻省理工学院攻读博士学位,专注于材料科学与工程。一次灵感迸发,他大胆设想:是否可以设计一个模型,只需输入条件和标准,就能自动生成满足需求的新材料?谢天对这个想法充满信心,尽管当时他并未预料到,它将在未来几年掀起一场
材料生成模型,利用AI来进行自动化学实验
谢天(图片来源于网络)
2018年,中国学者谢天(北京大学本科校友)在麻省理工学院攻读博士学位,专注于材料科学与工程。一次灵感迸发,他大胆设想:是否可以设计一个模型,只需输入条件和标准,就能自动生成满足需求的新材料?谢天对这个想法充满信心,尽管当时他并未预料到,它将在未来几年掀起一场变革。完成麻省理工计算机科学与人工智能实验室的博士后研究后,谢天于2022年加入微软研究院的AI for Science计划,正式踏上实现这一愿景的征程。2025年1月16日,他带领的团队终于将这一构想变为现实,并将研究成果发表在顶级学术期刊《Nature》上。他们研发的工具MatterGen堪称“创意引擎”,通过复杂算法生成数以万计的候选材料,精准满足用户设定的属性需求。谢天形象地解释道:“MatterGen就像一位材料设计师,可以根据设定的条件,提出完全创新的材料方案。” 这一成果不仅是人工智能在科学研究中的一次突破,也为材料设计开启了全新篇章。下面。就让小编带大家一起来拜读一下这篇最新研究成果。
无机材料设计的生成模型
更快地发现优质材料对碳捕获、半导体设计和能源存储等领域的技术创新至关重要。然而,传统的材料发现方法依赖实验和人类直觉,候选材料的测试范围有限,迭代周期较长。近年来,高通量筛选、开放材料数据库、基于机器学习的属性预测器和机器学习力场等技术的进步,使得筛选数十万种材料成为可能。然而,这些方法仍受限于已知材料的数量,仅能探索到潜在稳定无机化合物的一小部分,同时难以有效识别满足特定目标属性的材料。因此,材料的逆向设计逐渐受到关注,其目标是直接生成满足特定属性要求的材料结构。生成模型因其探索新结构的效率和适应多种任务的灵活性而备受期待,但现有模型在生成基于密度泛函理论(DFT)计算的稳定材料、扩展元素种类以及优化多样化目标属性方面仍存在显著局限性。
在这里,微软科学人工智能研究院谢天(末尾通讯作者)联合Ryota Tomioka团队共同提出了一种名为 MatterGen 的模型,它能够在元素周期表范围内生成稳定、多样化的无机材料,并支持进一步微调,以使生成过程满足多种属性需求。与之前的生成模型相比,MatterGen 生成新颖且稳定结构的概率提升了两倍以上,生成接近局部能量最小值结构的可能性更是提高了十倍以上。通过微调,MatterGen 成功生成了具备特定化学成分、对称性,以及机械、电子和磁性等性能的全新稳定材料。作为概念验证,作者合成了其中一个生成结构,并测量其属性值,发现其与目标值的偏差在 20% 以内。我们相信,MatterGen 在生成材料质量和功能广度上的表现,标志着材料设计基础生成模型的一个重要突破。相关成果以“A generative model for inorganic materials design”为题发表在《Nature》上。Claudio Zeni、Robert Pinsler、Daniel Zügner、Andrew Fowler、Matthew Horton、Ryota Tomioka 和 谢天为共同一作。
材料的扩散过程
MatterGen 是一种专为设计元素周期表范围内晶体材料的扩散模型(图 1(a))。该模型通过自定义扩散过程,利用评分网络逆转材料的“损坏”步骤来生成样本。传统扩散方法适用于图像,而 MatterGen 针对晶体材料的周期性和对称性特点,设计了适配的扩散过程。模型将晶体定义为包含原子类型、坐标和周期晶格的重复单元,并为每部分设计了物理约束的噪声分布,使生成过程更符合材料实际结构。为了实现特定属性的材料设计,MatterGen 引入了适配器模块(图 1(b)),通过在带有属性标签的小型数据集上微调模型,使其适应目标属性约束。适配器模块不仅灵活且计算效率高,还结合了无分类器指导方法,引导生成材料满足目标属性(如化学成分、对称性或磁密度)(图 1(c))。这种方法的广泛调节能力及改进的扩散过程,为解决材料逆向设计问题提供了重要工具。
图 1:使用 MatterGen 进行无机材料设计。
生成稳定、多样化的材料
作者将 MatterGen 的生成过程分为两步:首先预训练基础模型以生成稳定、多样化的晶体材料,然后通过微调适应特定任务。作者整理了一个包含 60 多万种结构的大型数据集 Alex-MP-20,用于训练基础模型。结果显示,MatterGen 能生成大量稳定且新颖的材料,超过 78% 的生成结构接近或达到局部能量最小值(图 2(b-c)),而 61% 的结构是从未见过的新材料(图 2(d))。即使在生成数千万个结构时,独特性仍保持较高水平。此外,MatterGen 成功重新发现了 2000 多种实验验证过的材料,表明其生成可合成材料的能力。在与现有方法的对比中,MatterGen 的生成性能显著提升,其生成高质量结构的比例比先进模型高出 60%,且生成结构的能量接近最小值的程度提高了一个数量级(图 2(e-f))。这些成果证明 MatterGen 在材料生成中的卓越能力,并为后续针对目标化学和属性的微调奠定了基础。
图2:生成稳定、独特、新颖的无机材料
化学指导设计
作者将 MatterGen 与 RSS 和替代方法进行了对比测试,利用 MatterSim [45] 的 MLFF 预松弛生成结构,减少昂贵的 DFT 计算。MatterGen 在九个三元、四元和五元化学系统中表现出色,生成了更多新颖且独特的稳定结构,尤其在复杂的五元系统中,效率远高于替代方法和 RSS(图 3(a-d))。例如,MatterGen 在五元系统中生成 10,240 个样本即可达到出色性能,而替代方法需约 70,000 个样本,RSS 则需 600,000 个样本。此外,在充分探索的 V-Sr-O 系统中,MatterGen 找到的独特稳定结构更多(4 个),优于替代方法(3 个)和 RSS(1 个)(图 3(e-i))。这表明,MatterGen 不仅提高了生成效率,还能发现更具价值的新材料,展示了生成模型在材料设计中的巨大潜力。
图 3:在目标化学系统中生成材料
属性导向设计
许多领域(如能量存储、催化和碳捕获)需要改进性能的材料,而传统的筛选方法无法探索已知材料集之外的新结构。MatterGen 展示了直接生成满足目标约束的 S.U.N. 材料的能力,适用于不同任务,包括磁性(图 4(a))、电子(图 4(b))和机械属性(图 4(c))。通过微调,MatterGen 成功生成了高磁密度(目标 0.20 ų)、目标带隙为 3.0 eV,以及高体积模量(目标 400 GPa)的材料,即使标记数据有限,仍表现出色。在对比中,MatterGen 在磁密度任务中仅使用 180 次 DFT 计算生成了 18 个符合目标的结构,而筛选方法未提供可比较的结果(图 4(g))。在体积模量任务中,MatterGen 发现了 106 个符合目标的结构(95 种成分),是筛选方法的两倍多(图 4(h))。此外,MatterGen 的发现速度几乎保持恒定,而筛选方法在高预算下逐渐饱和。MatterGen 还可以生成多种不同化学计量的结构(图 4(d-f)),体现了其在生成多样化材料和满足极端属性需求方面的强大能力。
图 4:设计具有目标磁性、电子和机械性能的材料
设计低供应链风险的磁铁
材料设计通常需要满足多种属性约束,例如开发低供应链风险的磁体。当前许多高性能永磁体含稀土元素,存在供应链风险,因此需要发现不含稀土的替代材料。作者将任务设定为寻找高磁密度(≥0.2 ų)和低供应链风险(HHI 分数 ≤1250)的材料。MatterGen 微调后生成的 S.U.N. 材料集中分布在目标值附近(图 5(a)),联合优化磁密度和 HHI 分数使生成的材料既满足性能需求,又显著降低了对钴 (Co) 和钆 (Gd) 等高风险元素的依赖(图 5(b))。其中一些生成的结构展示在图 5(c),进一步分析显示它们与已知永磁体相似。此外,MatterGen 还重新发现了 67 个此前从未见过的 ICSD 合成结构,这些结果证明其在设计低风险高性能磁体中的潜力
图 5:设计低供应链风险的磁铁
实验验证
作为概念验证,作者实验合成了 MatterGen 设计的材料,并证明其性能接近设计目标。通过对体积模量值(50、100、150 和 200 GPa)进行微调,MatterGen 生成了 8192 个候选结构。经过筛选和专家审查,作者选择了 4 个候选结构进行实验合成,其中一个成功合成为 TaCr₂O₆(图 6(a-c))。该材料是 MatterGen 预测的有序结构的无序版本,由目标值为 200 GPa 的模型生成。DFT 计算显示其体积模量为 222 GPa,与实验测得的杨氏模量(估算体积模量为 169 GPa)接近。此外,MatterGen 在生成的样本中重新发现了训练集中未包含的 101 个已被实验验证的 ICSD 化合物,其中 95 个通过 DFT 计算的体积模量与目标值高度吻合,平均绝对误差仅为 23 GPa(图 6(d))。这些结果证明,MatterGen 不仅能够设计接近目标属性的材料,还具备发现新材料的潜力,展示了其在材料设计领域的实际应用价值。
图 6:生成结构的实验验证
小结
生成模型在逆向设计中展现出巨大潜力,但生成稳定晶体材料的 3D 结构因其周期性和原子间复杂相互作用而具有挑战性。MatterGen 通过引入联合扩散过程和扩展的训练数据集,显著提升了材料生成的稳定性、独特性和新颖性,并支持微调以满足多种目标约束,相比传统方法(如 MLFF 辅助的 RSS、替代方法和 ML 筛选)表现更优。实验验证表明,MatterGen 能生成可合成的结构,并重新发现未见过的已合成材料。尽管如此,MatterGen 仍需改进,例如减少生成低对称性结构的偏向,并优化去噪过程、模型架构和训练数据集。此外,实验验证仍是测试晶体质量的重要环节。MatterGen 的能力和生成质量代表了材料生成模型的重要突破,未来可扩展至更广材料类别(如催化剂表面和金属有机框架)及复杂属性(如能带结构和 XRD 谱),助力解决固氮、碳捕获等难题,推动材料设计的全面革新。
来源:科学与爱