“如果我们能学会阅读和书写生命的代码,生物学就将变得可编程。试错将被逻辑取代,繁琐的实验将被模拟所替代。 ” 这个曾经看起来遥不可及的愿景,正在被一家新兴的 AI 公司变为现实。 在过去的几年里, DeepMind 的 AlphaFold 让世界见证了 AI 在预测蛋白质结构方面的突破。但要真正理解和设计蛋白质,我们面临的挑战远不止于此。 在生命科学领域,蛋白质被称为生命的“执行者 ” 。它们是构成生命的核心分子之一,从驱动细胞运动的分子马达,到进行光合作用的能量转换机器,再到构建细胞内部骨架的支撑蛋白,以及与环境互动的复杂感受器,蛋白质几乎参与了生命体内所有关键过程。要想设计新的蛋白质,科学家不仅要懂它们的“形状 ” ,更要理解它们的“语言 ” ——序列、结构和功能之间复杂的联系。 1 月 16 日, Science 杂志发表了一项重要突破:由前 Meta 首席科学家 Alexander Rives 领衔的初创公司 EvolutionaryScale 开发出了新一代人工智能模型 ESM3。 该模型首次实现了对蛋白质序列、结构和功能的统一推理,并成功“设计”出了一种全新的荧光蛋白。 图丨相关论文(来源: Science ) 这种蛋白质与自然界已知的最相近的荧光蛋白相比,序列相似度仅为 58%。从自然界中发现的绿色荧光蛋白(GFP)的多样化速率来看,这一代新荧光蛋白的生成相当于模拟了 5 亿年的进化过程。 实现序列、结构与功能的统一推理 ESM3 是一个具有 980 亿参数的语言模型,它能够同时理解蛋白质的序列、结构和功能。这个模型在 27.8 亿个自然蛋白质序列上进行训练,涵盖了从亚马逊雨林到海洋深处等各种环境中的蛋白质。 其核心创新在于其采用了一种称为“多轨道 Transformer ” (Multi-Track Transformer ) 的架构。 与传统的蛋白质 AI 模型往往只专注于序列或结构的单一方面不同,ESM3 通过巧妙的架构设计,在输入端将蛋白质的序列、结构和功能信息编码为不同的“轨道”。这些信息在模型内部被融合到一个统一的特征空间中,使模型能够同时理解这三个维度的关联。 具体来说,序列信息以氨基酸序列形式输入,结构信息则被编码为每个氨基酸周围的局部三维环境,而功能信息则通过来自 InterPro 数据库的功能注释和 GO 术语来表示。 图丨 ESM3 是一种多轨道 Transformer,能够联合推理蛋白质序列、结构和功能(来源:EvolutionaryScale) 为了高效处理蛋白质的三维结构信息,研究团队还开发出了一种基于局部参考系的几何注意力机制。这种机制以每个氨基酸的化学键几何构型为基础定义局部坐标系,再通过全局坐标变换实现不同局部区域之间的信息交互。这种方法不仅计算效率高,还保证了对蛋白质结构的精确表达,实验显示其能以小于 0.5 埃的精度重建蛋白质结构。 模型的训练采用了一种改进的掩码语言建模方法。不同于传统的固定掩码率训练,ESM3 使用了可变的掩码调度策略。这种策略让模型能够看到序列、结构和功能的各种组合,并学习预测任意组合中缺失的部分。 在生成新蛋白质时,ESM3 采用了一种迭代的条件生成策略。模型可以接受任意组合的条件约束,比如特定位置的氨基酸身份、局部结构片段或功能关键词。它会首先创建一个完全或部分被掩码的序列模板,然后通过计算条件概率分布 p(xi|xm) 来逐步填充被掩码的位置。这个生成过程的独特之处在于它是自回归的,每生成一个新的氨基酸都会被立即加入上下文,影响后续位置的生成。这种方式使得模型能够维持序列的连贯性和结构的合理性。 图丨使用 ESM3 进行生成式编程(来源: Sciecne ) 生成需 5 亿年进化的全新荧光蛋白 然后,研究团队选择了 GFP 作为验证 ESM3 能力的目标,这是一个极具挑战性的选择。绿色荧光蛋白因其独特的发光机制而闻名,它能够自发形成发光基团,这种特性在自然界中极为罕见。 模型采用“思维链 ” (Chain-of-thought ) 策略来设计新的荧光蛋白。这个过程首先向 ESM3 提供 GFP 中形成和催化发光团所必需的六个关键氨基酸残基(Thr62、Thr65、Tyr66、Gly67、Arg96、Glu222)的序列和结构信息。同时,还提供了来自天然 GFP 的第 58-71 位氨基酸的结构信息,这些残基对发光团形成的能量学有重要影响。 图丨 利用思维链生成远距离荧光蛋白(来源: Science ) 模型首先生成蛋白质骨架的结构标记,创建出可能的蛋白质主链构象。研究团队设计了严格的筛选标准,只有那些能够正确协调活性位点原子但整体结构与模板不同的候选结构才能进入下一步。随后,模型基于选定的结构生成相应的氨基酸序列,并通过迭代优化不断改进序列与结构的匹配度。 在第一轮实验中,模型生成了 96 个候选序列。其中一个被标记为 B8 的设计展现出了微弱的荧光,尽管它与已知的最相近的荧光蛋白仅有 57% 的序列相似度。研究团队随后以 B8 为起点进行第二轮设计,最终得到了被命名为 esmGFP 的新型荧光蛋白。这个蛋白质虽然与已知荧光蛋白的序列相似度只有 58%(差异多达 96 个氨基酸位点 ) ,但其荧光强度却与天然 GFP 相当。 从光谱特性来看,esmGFP 激发峰值在 496nm,较 EGFP 的 489nm 略有红移,但两者的发射峰值都在 512nm。同时,esmGFP 的激发光谱展现出更窄的半高宽(39nm 对比 EGFP 的 56nm ) ,这意味着它具有更好的光谱特异性。 研究团队通过对比分析发现,esmGFP 与其他荧光蛋白的差异程度相当于不同目之间但属于同一纲的物种差异。 通过构建时间校准的系统发育树,研究人员估算这种差异相当于超过 5 亿年的进化距离。这一发现具有重要意义,因为它表明 AI 模型能够在实验室中实现自然界需要数亿年才能完成的分子进化。 被 Meta 裁员后创业,一年融资上亿美元 在 ESM3 取得突破性进展的背后,是一个充满戏剧性的创业故事。2023 年 8 月,作为扎克伯格“效率年 ” 裁员计划的一部分, Meta 解散了由十几名科学家组成的 AI 蛋白质研究团队。但对团队负责人 Alexander Rives 来说,这反而成为了一个新的起点。他迅速召集了核心团队成员,成立了 EvolutionaryScale 公司,继续他们在 Meta 未完成的工作。 图丨Alexander Rives(来源:EvolutionaryScale) “Meta 不是一家生物技术公司, ” Rives 在接受 Fortune 杂志采访时表示,“虽然 Meta 的开放研究文化让我们能够开展这项工作,但当我们真正想要将这些模型扩展到更高水平时,创建一家新公司确实是更好的选择。 ” 这个选择很快得到了投资界的认可。 2024 年 6 月 25 日,EvolutionaryScale 宣布完成了 1.42 亿美元的种子轮融资, 投资方包括前 GitHub CEO Nat Friedman、知名投资人 Daniel Gross、Lux Capital,以及来自 亚马逊 和 英伟达 风投部门 NVentures 的战略投资。 这支团队在 Meta 期间就已经证明了他们的技术实力。例如,BioNTech 和 InstaDeep 此前就使用他们开发的 ESM 语言模型来检测新冠病毒的高风险变体,成功预测了世卫组织认定的所有 16 个需要关注的变异株。 “这显然是发明了蛋白质语言建模并有能力继续扩大规模的梦之队, ” 领投人 Friedman 表示,“Alex 的思维格局很大。他希望建立一个能够捕捉生物学所有复杂性的多模态模型。我一直在寻找具有这种雄心、远见和专业知识的人。 ” 目前,EvolutionaryScale 已经开始将其技术推向市场。公司采用双轨策略:一方面向学术研究人员免费开放 ESM3 的基础版本(项目地址:https://github.com/evolutionaryscale/esm),另一方面为制药公司提供商业版本用于药物研发。这种模式类似于 DeepMind 的做法——免费向研究人员开放 AlphaFold,同时通过子公司 Isomorphic Labs 与制药公司开展合作。 但公司的愿景远不止于此。一位公司发言人表示:“ESM3 只是起点。我们相信,未来的模型将更加多模态化,能够整合从分子到细胞尺度的生物学数据。这不仅会帮助我们更好地理解生命系统,也将为疾病治疗和可持续发展带来新的突破。 ” 在 AI 制药这片蓝海上,EvolutionaryScale 面临着来自 DeepMind 子公司 Isomorphic Labs、Insitro 等方面的竞争。但正如 ESM3 展示的那样,当 AI 真正掌握了生命的语言,Biology as Engineering 的未来或许比我们想象的更近。“我们相信未来 AI 可以帮助我们从最基本的层面理解生命的复杂系统,做出改变我们对生物学认识的新发现,帮助我们找到疾病的治愈方法,建设一个更可持续的世界。 ”摘要:“如果我们能学会阅读和书写生命的代码,生物学就将变得可编程。试错将被逻辑取代,繁琐的实验将被模拟所替代。 ” 这个曾经看起来遥不可及的愿景,正在被一家新兴的 AI 公司变为现实。
来源:东窗史谈
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!