Science:大语言模型模拟5亿年进化,开启蛋白质设计新纪元

B站影视 欧美电影 2025-06-04 09:55 2

摘要:超过 30 亿年的进化在天然蛋白质的空间中形成了生物学的图景。在此,我们展示了大规模训练的基于进化数据的语言模型能够生成与已知蛋白质相去甚远的功能性蛋白质。我们推出了 ESM3,这是一种前沿的多模态生成语言模型,能够对蛋白质的序列、结构和功能进行推理。ESM3

摘要

超过 30 亿年的进化在天然蛋白质的空间中形成了生物学的图景。在此,我们展示了大规模训练的基于进化数据的语言模型能够生成与已知蛋白质相去甚远的功能性蛋白质。我们推出了 ESM3,这是一种前沿的多模态生成语言模型,能够对蛋白质的序列、结构和功能进行推理。ESM3 能够遵循结合其模态的复杂提示,并且对齐度的提高能显著提升其准确性。我们提示 ESM3 生成荧光蛋白。在我们合成的生成物中,我们发现了一种与已知荧光蛋白相距甚远(序列同源性为 58%)的明亮荧光蛋白,据估计这相当于模拟了 5 亿年的进化。

集智编辑部丨作者

论文题目:Simulating 500 million years of evolution with a language model

发表时间:2025年1月16日

论文地址:https://www.science.org/doi/10.1126/science.ads0018

期刊名称:Science

蛋白质是生命活动的核心执行者,其设计一直是合成生物学和药物开发的“圣杯”。然而,自然进化需要数亿年才能产生功能性蛋白,而传统设计方法往往局限于对已知蛋白的微小修饰。近日,发表于Science期刊的一项研究,提出了一种多模态生成语言模型ESM3,成功设计出与天然荧光蛋白序列差异达58%的新型荧光蛋白esmGFP,相当于模拟了超过5亿年的自然进化。这一突破标志着人工智能在蛋白质设计领域迈入全新阶段。

ESM3的核心创新在于将蛋白质的序列(Sequence)、结构(Structure)、功能(Function)统一编码为离散令牌(Discrete Tokens),通过Transformer架构进行多模态联合建模。与以往专注于单一模态的模型不同,ESM3利用掩码语言建模(Masked Language Modeling)目标,随机遮盖任意模态的令牌并预测缺失部分,从而学习三者间的深层关联。

结构编码是技术难点之一:ESM3将三维原子坐标压缩为离散的结构令牌,通过几何自注意力机制(Geometric Attention)捕捉局部与全局空间关系,重建误差低至0.5 Å(RMSD)。功能层面,模型整合了基因本体论(Gene Ontology)关键词和二级结构(Secondary Structure)等语义信息,实现从原子细节到功能描述的多层次控制。

研究团队训练了三个规模的模型(1.4B/7B/98B参数),发现模型能力随规模显著提升。最大的98B模型在结构预测任务中超越前代ESMFold(平均LDDT 0.88 vs. 0.86),生成的蛋白结构多样性覆盖天然蛋白质分布(图1E),且预测置信度(pTM)高达0.84。

图 1. ESM3 是一种生成式语言模型,能够对蛋白质的序列、结构和功能进行推理。(A)ESM3 的迭代采样。生成一种α/β水解酶。序列、结构和功能都可以用作提示模型。在每个时间步 t,对部分掩码位置进行采样,直到所有位置都未被掩码。(B)ESM3 架构。序列、结构和功能在输入和输出端均表示为离散标记的轨道。该模型由一系列的 Transformer 块组成,所有轨道都在一个单一的潜在空间中融合;第一个块中的几何注意力允许基于原子坐标进行条件设置。ESM3 通过预测掩码标记进行监督训练。(C)结构标记化。每个氨基酸周围的局部原子结构被编码为标记。(D)模型在三个规模上进行训练:14 亿、70 亿和 980 亿参数。测试集上负对数似然(平均于掩码率)作为训练 FLOPs 的函数显示了对每个输入轨道进行条件设置的响应,随着 FLOPs 的增加而提高(95%置信区间)。(E)ESM3 980 亿参数模型的无条件生成(按颜色区分)与训练集中最接近序列的序列一致性,通过 ESM3 嵌入,并通过 UMAP 投影,同时还有从 UniProt 中随机抽取的序列(以灰色显示)。生成的序列多样、质量高,并涵盖了天然序列的分布。

ESM3的颠覆性在于其可编程性,用户可通过组合不同模态的提示(Prompt)指导生成。例如,指定关键催化残基的原子坐标,同时用关键词描述酶功能,模型即可生成满足条件的全新蛋白。实验显示,ESM3能生成远离自然分布的蛋白:当输入非天然对称结构或功能关键词时,模型输出序列与天然蛋白的相似度低于20%,结构差异显著(TM Score

更令人惊叹的是其创造性解决能力。例如,ESM3将丝氨酸蛋白酶(Serine Protease)的活性位点移植到完全不同的折叠架构中,并压缩序列长度33%,仍保持催化功能。这种“原子级嫁接”在自然进化中几乎不可能实现,却通过多模态提示轻松达成。

研究进一步发现,通过偏好优化(Preference Optimization)对齐模型,可大幅提升复杂任务解决能力。例如,在“三级结构基序支架(Tertiary Motif Scaffolding)”任务中,98B模型经对齐后成功率从26.8%跃升至65.5%,且能生成多个结构迥异的解决方案。这表明大模型内部形成了对蛋白质物理和进化规律的深刻表征,而对齐技术能有效提取这种“隐性知识”。

为验证ESM3的生物学保真度,团队挑战了高难度目标——设计远距离荧光蛋白。荧光功能依赖精密排列的色氨酸残基(Chromophore),传统方法仅能引入数十个突变,而ESM3通过链式思维(Chain-of-Thought)生成策略,逐步优化序列与结构。最终合成的esmGFP与最近天然荧光蛋白(tagRFP)仅有58%序列相似性,相差96个突变,相当于自然进化超过5亿年的分歧。

实验证实,esmGFP的荧光强度与天然蛋白相当,光谱特性接近。其结构预测显示,22个突变位于色氨酸周围的敏感区域,但ESM3仍成功维持了功能所需的空间配置(图4E)。这一成果不仅打破了蛋白质工程的极限,更揭示了AI探索“进化未达之地”的潜力。

图 2. 通过一系列的思考生成一种远距离荧光蛋白。(A)我们用形成和催化发色团反应所需的残基序列和结构以及天然绿色荧光蛋白(GFP)部分中央α螺旋的结构来提示 ESM3(左)。通过一系列的思考,ESM3 生成设计候选(右)。(B)在两次实验中,ESM3 找到了一种远离其他已知 GFP 的明亮 GFP。我们在大肠杆菌裂解液中测量了荧光。上排,平板照片。下排,平板读取器荧光定量。已知 GFP 的阳性对照用紫色圆圈标记,没有 GFP 序列或没有大肠杆菌的阴性对照用红色圆圈标记。在第一次实验(左)中,我们表达了具有不同序列同源性的设计。在 B8 孔(底部黑色圆圈,顶部白色圆圈突出显示)中出现了一个值得注意的设计,其与已知荧光蛋白的序列同源性较低(57%)。我们从 B8 孔中的蛋白质继续进行第二次实验(右)。在 C10 孔(与已知荧光蛋白的序列同源性为 58%,黑色圆圈)中出现了一个明亮的设计。(B)我们将其命名为 esmGFP 的是底部为白色圆圈顶部为绿色荧光蛋白的结构。(C)esmGFP 的荧光强度与常见的 GFP 相似。实验 2 中部分蛋白质的归一化荧光强度如图所示。(D)esmGFP 的激发和发射光谱与 EGFP 的光谱重叠。(E)esmGFP 预测结构中中央α螺旋和β桶内部的两个截面图。esmGFP 相对于其最近的邻居 tagRFP 的 96 个突变以蓝色显示。(F)不同分类群中荧光蛋白之间的序列同源性累积密度。esmGFP 与其他所有 FP 的相似程度通常在比较不同目但同属的序列时才会出现。(G)三种典型珊瑚纲 GFP 和 esmGFP 的进化距离(以百万年为单位)和序列同源性。(H)根据 GFP 序列同源性估算的进化距离(以百万年为单位)。我们估计 esmGFP 与已知最近的蛋白质在自然进化中相隔超过 5 亿年。

ESM3的突破性在于其隐式建模进化路径的能力。蛋白质可视为由突变连接的“进化网络”,而语言模型通过预测进化可能的方向,构建出超越自然历史的“虚拟进化空间”。esmGFP的案例表明,这种空间内存在大量功能蛋白的“岛屿”,它们虽未被自然选择青睐,却可通过AI直接挖掘。未来,随着模型规模扩大,ESM3有望成为“蛋白质宇宙”的通用模拟器,加速药物设计、酶工程等领域的突破。

来源:小夭看天下

相关推荐