MIT团队设计新型蛋白质大模型,发现比自然界高效百倍的突变体

B站影视 2024-11-22 21:36 1

摘要:“我们通过少量实验数据和高效的计算模型显著提升了蛋白质活性,标志着蛋白质工程领域的一次重要突破。”谈及和团队近期发表在Science的论文,美国麻省理工学院博士生姜凯议如是说。

“我们通过少量实验数据和高效的计算模型显著提升了蛋白质活性,标志着蛋白质工程领域的一次重要突破。”谈及和团队近期发表在 Science 的论文,美国麻省理工学院博士生姜凯议如是说。

研究人员结合蛋白质大模型、主动学习和回归模型,开发了一种创新的蛋白质工程方法 EVOLVEpro(EVOlution Via Language model-guided Variance Exploration for proteins)。

并且,首次展示了其能够在少于 60 次预测下,显著提升蛋白质的功能。

例如,单克隆抗体的结合亲和力提升了 40 倍,微型 CRISPR 核酸酶的基因编辑效率提升了 5 倍,T7 核糖核酸(RNA,Ribonucleic Acid)聚合酶在转录纯度和效能方面则提升了 100 倍。

图丨姜凯议(来源:姜凯议)

相比于传统的定向进化,该模型展示了在低样本数环境下的优越性能,同时有效降低了成本。并且,在体内和临床前阶段的测试下,EVOLVEpro 表现出超越现有方法的最佳效果。

该研究攻克了蛋白质大模型高效预测蛋白质突变体对活性影响的难题。相关实验证明,EVOLVEpro 是一种强大的通用工具,有望广泛应用于生物学和医学的蛋白质工程领域,尤其适用于那些难以通过高通量筛选的蛋白质进化任务。

审稿人对该研究评价称,“姜凯议等人提出了一项非常及时的研究工作,利用预训练语言模型的嵌入进行蛋白质优化。该论文的愿景非常有趣,这类方法在分子技术领域的前景也极为广阔,该研究将这种方法应用于多样化且有附加价值的蛋白质集合中。”

近日,相关论文以《通过蛋白质语言模型 EVOLVEpro 进行快速体外定向进化》(Rapid in silico directed evolution by a protein language model with EVOLVEpro)为题发表在 Science[1]。

麻省理工学院博士生姜凯议、博士后研究员颜兆庆和博士生马特奥·迪·贝尔纳多(Matteo Di Bernardo)是共同第一作者,奥马尔·O·阿布达耶(Omar O.Abudayyeh)研究员和乔纳森·S·古腾堡(Jonathan S.Gootenberg)研究员担任共同通讯作者。

图丨相关论文(来源:Science)

打破传统蛋白质进化方法的局限性

传统的定向进化通常非常复杂,以美国哈佛大学刘如谦(David Liu)教授实验室的噬菌体辅助连续进化(PACE,Phage-Assisted Continuous Evolution)系统为例,尽管该系统已被应用于进化各种 CRISPR 工具,但该系统至今没有普及到大多数实验室。

原因之一在于,当新实验室试图搭建这类定向进化平台时,仍需要投入大量时间和专业的知识的支持。

更重要的是,实现基于碳基生物的定向进化是一项复杂的任务,需要通过脱氧核糖核酸(DNA,Deoxyribonucleic Acid)电路的方式,将特定蛋白的活性与生物的生存或繁殖能力联系起来。

此外,许多蛋白质难以匹配到合适的 DNA 电路。不仅于此,生物工程和医学领域对蛋白质的多功能性具有严格的要求,而传统定向进化方法在同时优化多个特性方面存在挑战。

针对上述挑战,该课题组开发了 EVOLVEpro,其针对当前蛋白质工程中的诸多挑战提供了解决方案,包括劳动强度大、难以多目标优化,以及易受局部极值困扰等。

需要了解的是,传统大模型通过训练所有已知蛋白质序列信息,提炼出不同序列在进化中的功能和活性。

而 EVOLVEpro 则提出了与之相反的假设:在进化过程中,蛋白质活性信息并不直接存储在序列信息中。

原因在于,碳基生物进化是一个系统优化的过程,不仅需要同时优化系统中的所有成分,有时甚至还需要降低某些蛋白质的活性,来提升物种的存活能力。

基于这种假设,研究人员引入了上层回归模型,其专注于学习大模型向量和活性的关联,从而使模型能够快速学习蛋白质活性的变化,而不是从序列本身直接推断活性信息。

图丨 EVOLVEpro 工作流程示意图(来源:Science)

EVOLVEpro 结合了预训练蛋白质大模型中的信息向量,以及上层回归模型。其使用主动学习策略,可在每轮进化中对突变体进行排名,并选择高活性候选进行实验验证。

姜凯议指出,AI for Science 的发展不应局限于计算基准的比较,尤其在生物领域,优秀的模型需要在多样的生物体系和临床相关靶点上证明,其能够设计出超越现有理性工程方法的突变体。

为此,他学习了所在实验室之前未涉及的多种实验技术,并开展了大量实验,以验证模型在不同蛋白质上具有有效性,以及其能否为特定蛋白和靶点提供高活性的突变体。

最终,在 mRNA 生产、抗体和 DNA 切割酶等领域展示了先进的突变体和应用。

他表示:“EVOLVEpro 在不到 60 次的预测里,找到了比现有自然界 T7 RNA 聚合酶高效 100-500 倍的突变体,并超越了跨国制药公司莫德纳(Moderna)之前发表的优化版本,展示了其强大的效果。”

需要了解的是,这里提到的 T7 RNA 聚合酶是一种广泛应用于生物技术领域的蛋白,通常用于合成 mRNA 药物和 mRNA 疫苗。

然而,该酶需要在多个特性方面进行同时优化,且依赖体外分析化学方法鉴定,限制了传统定向进化技术的直接应用。

由于 EVOLVEpro 减少了对大量数据点进行学习的需求,并大幅度降低了成本,相比于 Moderna 公司以往通过理性工程进行酶工程化所需的数千次尝试,EVOLVEpro 显著加快了这一步骤。

图丨 epT7 在环状 RNA 生产和体内生物发光中的应用(来源:Science)

在实验中,EVOLVEpro 在 12 个深度突变扫描数据集上的表现显著优于现有方法,展示了其优异的基准性能。

例如,在单克隆抗体 CD71 的优化中,模型不仅提升了抗原结合力,还改进了抗体的表达水平。通过对 CRISPR 核酸酶、编辑酶 Bxb1 等其他蛋白的优化,EVOLVEpro 展现出其对多种蛋白活性的提升潜力。

在实际应用中,研究人员还展示了经过进化的 T7 RNA 聚合酶能够替代现有酶,用于生产更优质的 mRNA 药物和环状 RNA。

“我们在进化抗体亲和力和稳定性的数据,将为单克隆和双克隆抗体的生物科技公司提供新的思路,以更少的数据来更高效地完成抗体设计和进化。”姜凯议说。

有望助力精准医疗设计合理的药物

从 DNA、RNA 再到蛋白质,大部分的生物计算和细胞物种多样性都由蛋白质负责执行,因而蛋白质也被称为生物学的“中心法则”(Central Dogma)中的最后一环。

在现代医学中,抗体药物作为最常用和最普遍的大分子药物代表。该研究表明,抗体的优化和设计,对于 mRNA 和基因疗法的构建来说只是一小部分。

随着模型预测能力的进一步提升,未来有望设计出更多蛋白质,以优化现代医学,并为解决环境问题提出新方案。

从控制成长因子、调节免疫反应的细胞因子,到抵抗病毒细菌的抗体,再到重新设计光合作用的蛋白质来提高碳中和效率,掌握蛋白质活性的设计能力是合成生物学控制碳基生物计算机控制的关键。

EVOLVEpro 标志着“循环实验室(lab in a loop)”的开始,与互联网大模型不同,由于蛋白质进化的空间维度极高,现有技术难以全面覆盖,因此生物大模型受限于高质量数据不足。

以一个 300 氨基酸的蛋白质为例,理论上其共有 20300 种可能的序列,但目前 DNA 合成和测序能力还远未达到测量这一空间的 1%。因此,主动学习和循环实验室将有可能成为未来研究的重点。

此外,这些模型由于数据需求较低,未来可能在个体基因背景下学习和确定最佳药物,以助力精准医疗设计合理的药物。

据悉,该技术已申请专利。在该研究中所进化酶的专利,有望在 Moderna 和 New England Biolabs 等生物科技公司直接应用。后续,课题组计划将 EVOLVEpro 模型孵化成平台公司。

图丨用 EVOLVEpro 进化高活性的微型 CRISPR 核酸酶(来源:Science)

姜凯议本科毕业于美国莱斯大学生物工程系,师从卡列博·巴沙尔(Caleb Bashor)教授。之后,他来到麻省理工学院生物工程系读博,导师为乔纳森和奥马尔。

他的研究经历中既包含了理性工程和生物物理模型方向,也积累了蛋白质工程方面的经验。

例如,他基于生物物理模型预测和构建了人工磷酸通路,展示了物理建模在蛋白设计中的指导作用,目前相关论文已被 Science 接收 [2]。

此前,他在工程 CRISPR 系统进行研究,利用理性工程和结构生物学来指导蛋白设计,发现在真核生物及其病毒中广泛存在可编程的 RNA 引导的 DNA 内切酶,并展示了 III-E 型 CRISPR 核酸酶-蛋白酶通过 RNA 触发的蛋白质切割和细胞生长抑制 [3-4]。

凭借“利用生物多样性与机器学习技术开发细胞工程技术工具箱,在疾病治疗和分子生物学机制理解方面具有重要价值”,姜凯议成为 2024 年度《麻省理工科技评论》“35 岁以下科技创新 35 人”亚太区入选者之一。

目前,他的研究方向主要集中在 RNA 方向。与蛋白质不同的是,RNA 大模型尚在发展初期,由于 RNA 的不稳定性,针对 RNA 的设计算法仍处于在初期阶段。

他认为,AI 在 RNA 研究领域将发挥重要作用,尤其是在高通量 RNA 数据积累推动下,有望促进 mRNA 治疗和 mRNA 回路设计的先进模型开发。

AI 生物大模型因其丰富的信息量在蛋白质设计和突变预测中不可或缺,有助于缩短临床药物开发的时间与成本,并提高成功率。

该论文是系列研究的开端,研究人员将继续探索和解决相关问题。例如,结合多模态大模型、整合序列和结构信息,以及优化主动学习策略。此外,他们还打算继续优化模型,并将在多个临床靶点上实现突破。

“从长远的角度来看,我认为应该在基础生物物理研究方面多投入研究,因为只有掌握了正确的模型和理论,才能真正具有理性设计的能力。”姜凯议表示。

参考资料:

1.K.Jiang et al. Rapid in silico directed evolution by a protein language model with EVOLVEpro. Science,2024. https://www.science.org/doi/10.1126/science.adr6006

2.X.Yang,J.W. Rocks,K. Jiang et al. Engineering synthetic phosphorylation signaling networks in human cells, bioRxiv, 2023.https://www.biorxiv.org/content/10.1101/2023.09.11.557100v2

3.K.Jiang et al. Programmable RNA-guided DNA endonucleases are widespread in eukaryotes and their viruses, Science Advances 9,39,2023. https://www.science.org/doi/full/10.1126/sciadv.adk0171

4.K.Kato et al. RNA-triggered protein cleavage and cell growth arrest by the type III-E CRISPR nuclease-protease, Science 378,6622,2022. https://www.science.org/doi/full/10.1126/science.add7347

运营/排版:何晨龙

来源:DeepTech深科技一点号

相关推荐