摘要:近日,一项发表在Science的工作把蛋白的序列、结构、功能等当作不同的“语言”[1], [2]来丝滑整合并深度(更动态/综合的mask规则)训练大语言模型(ESM3; 1.4 billion, 7 billion, and 98 billion parame
近日,一项发表在Science的工作把蛋白的序列、结构、功能等当作不同的“语言”[1], [2]来丝滑整合并深度(更动态/综合的mask规则)训练大语言模型(ESM3; 1.4 billion, 7 billion, and 98 billion parameters); 该模型实现了生成满足复杂用户需求(关键原子坐标、二级结构、功能等等)且有创造性(不同于自然界出现的蛋白)的蛋白序列/结构[3]。
ESM3的框架和训练[3]。
根据用户需求prompts生成符合要求的蛋白[3]。
ESM3结合chain of thought生成远源的绿色荧光蛋白[3]。
进一步,研究人员用该模型结合思维链(chain of thought)生成了非常“远源”的绿色荧光蛋白(与最近的自然界荧光蛋白53% identity;自然界需要约5亿年来实现这么远源的分支),证明该模型可以非常广阔地探索蛋白功能空间[3]。
该项工作的通讯作者是纽约EvolutionaryScale的Alexander Rives;2025年1月16日在线发表在Science[3]。
Comment(s):
很“恢弘”的工作;充分利用演化信息。
该方法还有望用于设计小巧强悍的Cas蛋白等;
一个很有意思的问题是该策略能不能设计蛋白实现自然界不存在但是理论上可行的功能?
此外,该方法如何实现更加复杂的功能“编码”与“理解”也是需要后续研究的问题。
参考文献:
[1] A. Van Den Oord, O. Vinyals, and K. Kavukcuoglu, “Neural discrete representation learning,” Adv. Neural Inf. Process. Syst., vol. 2017-December, no. Nips, pp. 6307–6316, 2017.
[2] B. E. Suzek, Y. Wang, H. Huang, P. B. McGarvey, and C. H. Wu, “UniRef clusters: a comprehensive and scalable alternative for improving sequence similarity searches.,” Bioinformatics, vol. 31, no. 6, pp. 926–932, Mar. 2015, doi: 10.1093/bioinformatics/btu739.
[3] T. Hayes et al., “Simulating 500 million years of evolution with a language model,” Science (80-. )., vol. 0, no. 0, p. eads0018, Jan. 2025, doi: 10.1126/science.ads0018.
原文链接:
Codes:
来源:老郑说科学