摘要:近日,AI 初创公司 EvolutionaryScale 发布新语言模型 ESM Cambrian(ESM C),以蛋白质序列为训练对象,其规模可以捕捉地球生命的多样性。ESM C旨在成为一个多功能模型,能够预测结构、功能并促进不同物种和蛋白质家族的新发现,从
近日,AI 初创公司 EvolutionaryScale 发布新语言模型 ESM Cambrian(ESM C),以蛋白质序列为训练对象,其规模可以捕捉地球生命的多样性。ESM C旨在成为一个多功能模型,能够预测结构、功能并促进不同物种和蛋白质家族的新发现,从而有可能加快新药和合成生物学应用的发现。
EvolutionaryScale 在今年 6 月份发布蛋白质大模型 ESM3 时就引起轰动。ESM3 经过 27.8 亿种蛋白质的数据集训练,可以“推理”蛋白质的序列、结构和功能,从而使该模型能够生成新的蛋白质,其设计的新蛋白质相当于模拟自然界 5 亿年的进化。
在发布 ESM3 模型之际,EvolutionaryScale 还宣布了一轮超过 1.42 亿美元的种子轮融资,由 Nat Friedman 和 Daniel Gross 以及 Lux Capital 领投,亚马逊、NVentures(英伟达的风险投资部门)和天使投资者跟投。
该公司由 Meta-FAIR 蛋白质小组的前成员创办的,公司的首席科学家 Alexander Rives 正是这个已解散团队的前负责人。
2019 年,Alexander Rives 与 Tom Sercu 和 Sal Candido 在 Meta 的 AI 研究实验室 FAIR 开始专注于开发生成式 AI 模型解码蛋白质。期间,该团队开发了一种名为进化规模建模 ( evolutionary scale modeling,ESM) 的大型语言模型,即第一代大型蛋白质语言模型 ESM1(ESMFold)。这是一个基于 Transformer 的蛋白质预测模型,该模型只需了解蛋白质序列即可预测其三维结构,与 DeepMind 开发的 AlphaFold 模型类似。
ESM2 同样是由该团队开发的,可以进行原子级蛋白质结构的进化规模预测,其最新版本使用了 48 层 Transformer 编码器架构,有150 亿参数。ESM2 已广泛应用于基础科学发现、药物开发和可持续发展等领域,包括最先进的蛋白质设计模型和抗体优化等。
EvolutionaryScale 称 ESM C 是 ESM3 生成模型的并行模型系列,ESM3 专注于可控蛋白质生成,用于治疗和许多其他应用,而 ESM C 则专注于创建蛋白质底层生物学的表示。且 ESM C 可扩展数据和训练计算,能够显著提高 ESM2 的性能。
EvolutionaryScale 发布了该模型的不同版本。其中,ESM C 300M 和 ESM C 600M 权重已向研究界公开;ESM C 6B 可在 EvolutionaryScale Forge 上用于学术研究,也可在 AWS Sagemaker 上用于商业用途,并计划很快在 NVIDIA BioNemo 上推出。
(来源:EvolutionaryScale)
ESM C 基于 transformer 架构,使用自注意力机制来识别蛋白质序列中的复杂关系,使其非常适合预测蛋白质折叠或发现新功能等任务。该模型已在数百万个蛋白质序列上进行了训练,涵盖了广泛的生物多样性,以揭示蛋白质中潜在的模式和关系。
ESM C 模型使用来自 UniRef、MGnify 和联合基因组研究所(JGI)的蛋白质序列进行训练。训练分为两步。第一阶段:对于前 100 万个训练步骤,模型使用 512 的上下文长度,其中宏基因组数据占训练数据集的 64%;第二阶段:模型又进行了 50 万个训练步骤,上下文长度增加到 2048,宏基因组数据的比例降低到 37.5%。这种分阶段的方法使模型能够从一组多样化的蛋白质序列中有效地学习,从而提高其在不同蛋白质之间的泛化能力。
与 ESM2 相比,ESM C 性能优势显著。ESM C 在参数数量级上实现了线性扩展,每个模型的性能都与上一代较大模型相当甚至大大超过。例如,300M 参数的 ESM C 提供与 ESM2 650M 类似的性能,但内存需求更低,推理速度更快。600M 参数的 ESM C 可与 3B 参数的 ESM2 相媲美,并接近 15B 模型的性能。6B 参数的 ESM C 树立了新的标杆,其性能远远超过最好的 ESM2 模型。
(来源:EvolutionaryScale)
商业模式上,EvolutionaryScale 计划通过合作、使用费和收益分成等方式赚钱。例如,EvolutionaryScale 可能会与制药公司合作,将 ESM3 整合到他们的工作流程中,或者与研究人员分享使用 ESM3 商业化的突破性发现的收入。
(来源:EvolutionaryScale)
据悉,关于 ESM C 的预印本很快会推出。
参考链接:
1.https://www.marktechpost.com/2024/12/04/evolutionaryscale-releases-esm-cambrian-a-new-family-of-protein-language-models-which-focuses-on-creating-representations-of-the-underlying-biology-of-protein/
免责声明:本文旨在传递合成生物学最新讯息,不代表平台立场,不构成任何投资意见和建议,以官方/公司公告为准。本文也不是治疗方案推荐,如需获得治疗方案指导,请前往正规医院就诊。
来源:生辉SciPhi