摘要:托马斯·海斯(Thomas Hayes)和他的同事利用一种名为“ESM3”的多模态生成语言模型,设计并合成了一种新的明亮荧光蛋白,其基因序列与任何已知的荧光蛋白都大不相同。研究人员指出,这一成就可以与模拟5亿年生物进化的ESM3相媲美。
研究人员利用人工智能模型“ESM3”模拟了5亿年的进化,创造了一种新的荧光蛋白,为蛋白质工程带来了革命性的变化。
托马斯·海斯(Thomas Hayes)和他的同事利用一种名为“ESM3”的多模态生成语言模型,设计并合成了一种新的明亮荧光蛋白,其基因序列与任何已知的荧光蛋白都大不相同。研究人员指出,这一成就可以与模拟5亿年生物进化的ESM3相媲美。
这种方法为“搜索”潜在蛋白质的广阔前景提供了一种开创性的方法,增强了我们对自然进化蛋白质的理解,并使新蛋白质的创造能够应用于医学、环境修复和许多其他领域。
ESM3是如何工作的:蛋白质建模的新方法
ESM3可以对蛋白质序列、结构和功能进行推理,方法是通过可以在生成语言模型中组合的离散符号的字母表来表示每一个符号。这种策略不同于以前使用的语言模型,这些模型只针对蛋白质序列进行缩放。
ESM3的训练数据由7710亿个唯一标记组成,这些标记来自31.5亿个蛋白质序列、2.36亿个蛋白质结构和5.39亿个带有功能注释的蛋白质。ESM3可以训练多达980亿个参数。
ESM3现在通过API进行公测,使科学家能够以编程方式或通过基于浏览器的交互式应用程序来设计蛋白质。研究人员可以通过免费的学术访问层使用evoltionaryscale Forge API,或者使用开放模型的代码和权重。
来源:知新了了
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!