AI模拟了一场5亿年的进化!研究成果登上《科学》

B站影视 日本电影 2025-03-18 02:15 1

摘要:近日,《科学》(Science)杂志刊登了一篇标题为《用语言模型模拟5亿年演化》(Simulating 500 million years of evolution with a language model)的研究论文。在这个宏大的标题之下,科学家们用AI解

学术经纬 学术经纬

2025年02月10日 16:31上海

近日,《科学》(Science)杂志刊登了一篇标题为《用语言模型模拟5亿年演化》(Simulating 500 million years of evolution with a language model)的研究论文。在这个宏大的标题之下,科学家们用AI解决了怎样的生命难题?

蛋白质是生命的基石。从驱动肌肉运动的分子引擎,到捕捉光能的光合作用机器,再到细胞内的信息处理系统,这些功能复杂的分子贯穿了生命的每一个环节。尽管科学界早已解析了蛋白质的化学结构,但蛋白质的设计逻辑于人类而言,如同一门尚未理解的古老语言。

在这篇《科学》论文中,研究团队借助全新的AI模型,模拟了一种自然不存在的蛋白质的进化过程。而在自然界,这种程度的进化需要5亿年之久!

为了实现这一目标,来自EvolutionaryScale和Arc研究所的研究团队打造了一款全新的多模态生成式AI模型——EvolutionaryScale Model 3(ESM3)。ESM3与我们熟悉的ChatGPT、DeepSeek等AI模型原理相近,不过ESM3处理的不是文本,而是蛋白质的序列、结构和功能。

研究团队将蛋白质的结构和功能编码为离散的字母,构建了一个统一的“生物语言”体系,使模型能够同时推理蛋白质的序列、结构和功能。“生物学本质上是一种编程语言,”EvolutionaryScale的联合创始人兼首席科学家Alexander Rives博士表示,“ESM3让我们能够像设计芯片或编写代码一样,从第一性原理出发设计蛋白质。”

▲ESM3模型可以推理蛋白质的序列、结构和功能。(图片来源:参考资料[1])

要训练这样的AI模型,自然需要大量的数据。ESM3的训练集涵盖了来自地球多种极端生态条件的31.5亿个蛋白质序列、2.36亿个结构数据和5.39亿条功能注释。这些数据被转化为7710亿个标记,供模型学习蛋白质的演变规律。

随着训练量的增加,正如语言模型可以通过上下文预测下一个单词,ESM3也能掌握如何生成符合生物学规律的分子,甚至能模拟自然选择的过程。

为了检验ESM3的能力,研究团队选择了常用的生物标记工具——绿色荧光蛋白(GFP)作为考题。在自然界,GFP的进化历程长达数亿年,而人工改造往往局限于小幅的序列调整。

在这项研究中,ESM3的任务是设计一种与现有GFP家族差异显著的全新蛋白。研究团队向模型输入天然GFP核心区域的少量结构信息,接下来模型要做的就是通过“链式推理”生成候选序列。

▲esmGFP的渲染图(图片来源:EvolutionaryScale)

经过一系列的模拟与优化,ESM3得到了一个亮度与天然GFP接近,并且与最接近的天然GFP序列相似度只有58%的全新荧光蛋白esmGFP。

研究指出,自然界需要长达5亿年的进化,才能出现序列分化程度如此之大的新型蛋白。

在研究团队看来,ESM3的潜力远不止于荧光蛋白设计,还可被用于设计降解塑料的酶、创造靶向癌症突变的智能药物、开发新型疫苗、甚至是合成人工光合系统。

ESM3的出现不仅加速了蛋白质设计,也为理解进化本身提供了新工具。研究团队指出,ESM3的设计过程还为一个古老的科学争议提供了新的线索:如果生命历史重演,进化会走向相同的结局吗?支持“偶然性”的学者认为,随机突变会导致截然不同的结果;而“确定性”学派主张自然选择会让生命趋同演化。esmGFP的诞生似乎更加支持后者——尽管其生成完全脱离自然进化路径,但其功能与天然GFP高度相似,暗示着生命分子可能存在某种最优解。

参考链接:

[1] Thomas Hayes et al, Simulating 500 million years of evolution with a language model, Science (2025). DOI: 10.1126/science.ads0018

[2] ESM3: Simulating 500 million years of evolution with a language model. Retrieved on Feb 7th, from https://www.evolutionaryscale.ai/blog/esm3-release

[3] AI model simulates 500 million years of evolution to generate a new fluorescent protein. Retrieved on Feb 7th, from https://phys.org/news/2025-01-ai-simulates-million-years-evolution.html

来源:营养和医学

相关推荐