摘要:在材料化学领域,生成式 AI 早已崭露头角,尤其是在晶体结构预测方面,AI 已经成为科研人员的得力助手。然而,面对浩瀚如海的化学成分和复杂的分子/晶体结构空间,如何高效精准地探索和筛选,仍然是个极具挑战性的科学难题。
编辑丨%
在材料化学领域,生成式 AI 早已崭露头角,尤其是在晶体结构预测方面,AI 已经成为科研人员的得力助手。然而,面对浩瀚如海的化学成分和复杂的分子/晶体结构空间,如何高效精准地探索和筛选,仍然是个极具挑战性的科学难题。
英国帝国理工学院(Imperial College)利用生成式 AI 能根据材料的结构特性数据集进行有效地导航的特性,提出了名为 Chemeleon 的模型,旨在通过从文本描述和三维结构数据中学习来生成化学成分和晶体结构。
该研究以「Exploration of crystal chemical space using text-guided generative artificial intelligence」为题,于 2025 年 5 月 12 日刊登于《Nature Communications》。
论文链接:
Chemeleon
Chemeleon,一种基于去噪扩散的生成材料模型,从文本描述和三维结构数据中学习,以对化学成分和晶体结构进行采样。通过将文本纳入训练,模型得以更好地了解构图与结构之间的关系。
为了弥合文本描述和晶体结构生成之间的差距,团队开发了一个生成模型,模型包含两个组件。
第一个组件是通过对比学习进行预训练的文本编码器——Crystal CLIP,旨在对齐文本编码器生成的文本嵌入向量与等变图神经网络(GNNs)生成的图嵌入向量。
第二个组件是无分类器引导的去噪扩散模型,用于成分与结构生成,该模型通过整合预训练文本编码器生成的文本嵌入,预测噪声的时间演化过程。
图 1:在 Chemeleon 中实现的跨模态对比学习和生成扩散方法的图示。(图源:论文)
晶体结构的对比学习
已有研究通过在广泛的材料科学文献语料库上训练 Word2Vec,提出了材料领域构建文本嵌入的方法。然而,此类方法在理解材料三维空间结构方面仍存在局限性。
为了弥合文本嵌入和准确晶体结构表示之间的差距,研究团队开发了一个跨模态对比学习框架,名为 Crystal CLIP。
Crystal CLIP 框架在设计之初被定义为这两者之间的连接器,有助于将文本编码器中的文本嵌入与来自其他模态的文本嵌入进行对齐,与仅针对文本数据训练的模型相比,它们显示出增强的性能。
图 2: 文本和晶体图的对比学习。(图源:论文)
团队添加了基于 MatTPUSciBERT 的 Crystal CLIP(以下简称 Baseline BERT)的对比学习结果,主要目标是增强潜在空间中文本和图形嵌入之间的对齐。
Crystal CLIP 的元素嵌入揭示了元素的不同聚类,例如过渡金属、卤素和惰性气体。相比之下,Baseline BERT 模型没有显示如此明显的聚类,它无法区分正对和负对,突出了 Crystal CLIP 中对比学习的效用。
Crystal CLIP 表现出显著优势:即使面对通用文本描述,仍能在文本数据集中生成 20% 的未见真值结构,其性能大幅超越基线模型 Baseline BERT,充分彰显了它对文本中精确结构的更强复现能力。这一结果凸显了 Crystal CLIP 在处理非结构化文本输入时,具备更优异的结构还原精度。
除了从原始数据分布中随机生成化合物外,Chemeleon 还能够通过文本描述指导特定类型的结构生成,通过无分类器的指导,利用 Crystal CLIP 的文本嵌入向量当做条件数据,可以有效指导文本到晶体结构的生成过程。
Chemeleon 的应用
为探索新模型的功能,研发团队针对不同的化学空间进行了测试,论文中所给出的示例为 Ti-Zn-O 系统与 Li-P-S-Cl 系统。这种广阔的空间将会使全面探索非常耗时且计算更加复杂。
为了解决这个问题,研究中引入了一个集成了多种计算工具的定制工作流程:SMACT(化学滤波器)、Chemeleon(采样)、MACE-MP(初步几何优化)和 Atomate2(自动密度泛函理论计算),该工作流程有助于构建相图和识别潜在的新化合物。
首先,可以通过有关电负性平衡和电荷中性的化学规则将巨大的搜索空间搜索可行的部分,随后,Chemeleon 仅对通过化学过滤器的组合物进行结构采样。
图 3:Zn-Ti-O 空间。(图源:论文)
图 4:Li-P-S-Cl 空间。(图源:论文)
在这个工作流程中,文本引导的生成模型被证明可以作为导航化学空间的高效且多功能的工具。基于扩散的 DiffCSP、基于 LLM 的 CrystaLLM 和元素替换等侧重于根据组成输入优化原子排列和晶格矩阵,也可以集成到此工作流程中。
模型限制
Chemeleon 的输入文本与生成的化合物之间没有严格的约束,但涉及到灵活的逆向设计时,这个问题可以被视为一个特性,因为提示只是一个文本指南,而不是硬编码的规则或关系。
当前的文字编码器难以准确地解释和生成数据,在区分数值方面仍存在困难,尤其是因为许多模型是在掩码语言建模任务上预训练的,并不擅长处理数字。
当文本描述具有多种风格时,对比学习的效果更为显著,而不是依赖于严格格式化的文本。这种方法提供了关于 AI 模型生成能力的见解,虽然需要进一步发展以扩展到更复杂的结构和性质,但这些方法已经使大规模的化学空间计算搜索更加便捷。
来源:科学的大本营