摘要:在生命的宏伟剧本中,蛋白质无疑是戏份最重的“主角”。它们是细胞的建造者、信使、催化剂和守护者,其形态与功能的精准协调,构成了生命活动的基础。氨基酸序列,这串由20个字母组成的“天书”,决定了蛋白质如何折叠成三维结构,并最终执行其特定功能。长久以来,读懂并改写这
在生命的宏伟剧本中,蛋白质无疑是戏份最重的“主角”。它们是细胞的建造者、信使、催化剂和守护者,其形态与功能的精准协调,构成了生命活动的基础。氨基酸序列,这串由20个字母组成的“天书”,决定了蛋白质如何折叠成三维结构,并最终执行其特定功能。长久以来,读懂并改写这本“天书”,即蛋白质工程(protein engineering),始终是生物技术领域最激动人心的前沿之一。近年来,人工智能(AI),特别是蛋白质语言模型(Protein Language Models, PLMs),如同一位天赋异禀的“语言学家”,通过“阅读”数亿条从自然界中演化而来的蛋白质序列,学会了预测序列与功能之间的关系,其强大的能力在蛋白质设计领域掀起了一场革命。
然而,这些依赖进化数据的模型,更像是一个经验丰富的“鉴赏家”,它知道哪些序列“看起来”或“听起来”像一个正常的蛋白质,却对其背后的基本原理知之甚少。它能“知其然”,却未必能“知其所以然”。
蛋白质的折叠、稳定与相互作用,本质上是由热力学和量子力学等基本物理化学定律所支配的。那么,我们能否为这位才华横溢的AI“语言学家”,请一位严格的“物理家教”,让它在学习海量进化“语料”的同时,也掌握蛋白质世界的“语法规则”——生物物理学第一性原理呢?
9月11日,《Nature Methods》的研究报道“Biophysics-based protein language models for protein engineering”,正面回答了这个问题。研究人员提出了一个名为“突变效应迁移学习”(Mutational Effect Transfer Learning, METL)的全新框架,巧妙地将经典的生物物理学模拟与前沿的深度学习相结合,为AI推开了一扇通往更深层次理解蛋白质世界的大门。这不仅是一次技术的突破,更可能预示着蛋白质工程一个全新时代的到来。
AI蛋白质设计的“两条路线”:从进化“大数据”中“猜”,还是从物理原理出发“算”?
要理解METL框架的巧妙之处,我们先来看看当前AI蛋白质设计领域并存的两种主流思想,它们可以被形象地比作“经验主义”和“理性主义”两条路线。
经验主义路线的典型代表,是近年来大放异彩的各种蛋白质语言模型,例如ESM (Evolutionary Scale Modeling)系列。它们的学习方式,好比一个婴儿学习母语。通过接触海量的语言环境(对应于数据库中数以亿计的天然蛋白质序列),模型逐渐掌握了词语搭配的规律(氨基酸的上下文关系)。它不需要理解“主谓宾”的语法结构,就能凭“语感”判断一个句子是否通顺,甚至能写出像模像样的诗句。同样,这些PLMs通过在庞大的进化数据上进行“完形填空”(即掩码语言模型任务, masked language model task),学习到了氨基酸序列的深层表示。这种表示隐含了关于蛋白质结构、功能和进化压力的丰富信息。它们在预测突变效应、生成全新蛋白质等任务上取得了巨大成功,证明了从进化“大数据”中挖掘规律的强大威力。然而,这种方法的局限性也同样明显:它极度依赖数据,并且其知识边界被已知的生物序列空间所限制。当面对一个与进化历史截然不同的、全新的设计目标时,它的“语感”可能会失灵。更重要的是,它是一个“黑箱”,我们很难知道它做出决策的具体物理化学依据。
与之相对的,是理性主义路线。这条路线的“老前辈”是基于物理原理的计算建模方法,其杰出代表是Rosetta等分子模拟软件。它的工作方式,更像一位严谨的工程师,依据经典力学和热力学定律,一砖一瓦地构建和评估蛋白质结构。它会精确计算原子间的范德华力(van der Waals forces)、静电力(electrostatic forces)、氢键(hydrogen bonding)和溶剂化能(solvation energy)等,通过寻找能量最低的构象来预测蛋白质的稳定性和功能。这种方法的优点是它建立在坚实的物理基础上,具有很强的解释性,并且理论上可以探索任何可能的序列空间,不受进化数据的束缚。但它的“阿喀琉斯之踵”在于巨大的计算开销。对一个蛋白质的成千上万种突变体进行精确的物理模拟,需要耗费惊人的计算资源和时间,这使得它难以应用于大规模的序列筛选和设计任务。
于是,一个核心的矛盾摆在了研究人员面前:我们能否将经验主义的“速度”与“广度”,同理性主义的“深度”与“精度”结合起来?我们能否让AI既是一位博览群书的“文学家”,又是一位精通物理的“科学家”?这正是METL框架试图搭建的桥梁。
METL框架的核心思想,可以用“虚拟预训练,真实微调”八个字来概括。它巧妙地利用计算成本相对低的生物物理学模拟来生成海量“伪标签”数据,先让模型“闭门修炼”物理内功,然后再用少量、珍贵的真实实验数据对其进行“点拨”,打通“任督二脉”。整个过程分为三步,如同一套精心设计的武功秘籍。
第一式:创生万象,生成海量合成数据
研究人员首先选择一个目标蛋白质,然后利用Rosetta软件,在计算机中创造出数以百万计的该蛋白质的序列变体。例如,对于一个蛋白质,他们可以生成高达2000万个包含1至5个氨基酸突变的序列。这就像是进行了一场规模空前的“虚拟实验”。对于每一个虚拟创造出的蛋白质序列,Rosetta都会一丝不苟地计算出其对应的55个生物物理学属性,这其中包括了总能量得分、原子间吸引与排斥能、氢键网络、溶剂可及表面积(relative solvent accessibility, RSA)等一系列描述其结构稳定性和能量状态的关键参数。这个过程,虽然仍需要大量计算,但相比于在实验室中合成并测试2000万个蛋白质变体,其成本和效率已经有了天壤之别。这批包含了“序列-物理属性”对应关系的海量数据,构成了METL模型预训练的“第一本教科书”。
第二式:格物致知,生物物理学预训练
有了这本厚重的“教科书”,接下来就是让AI模型来学习了。METL采用的是目前在自然语言处理领域大获成功的Transformer架构。在预训练阶段,模型的任务非常明确:输入一个氨基酸序列,输出其对应的55个生物物理学属性的预测值。通过这个过程,模型被迫去理解序列中氨基酸的微小变化是如何引起蛋白质整体物理化学性质的剧烈波动的。它不再是简单地记忆“哪些序列看起来眼熟”,而是开始学习“什么样的序列组合能形成稳定的氢键”、“哪个位置的氨基酸突变会严重破坏疏水核心”。这种学习,使得模型在内部形成了一种基于生物物理学原理的、对蛋白质序列的全新“表示”(representation)。这种表示,可以说是模型对蛋白质物理世界的“心法口诀”。研究人员还进一步设计了两种预训练策略:一种是METL-Local,它专注于一个特定的蛋白质,旨在培养一个“专才”;另一种是METL-Global,它同时在148种结构多样的蛋白质上进行预训练,旨在培养一个“通才”。
第三式:融会贯通,实验数据微调
当模型通过预训练掌握了深厚的“物理内功”后,最后一步就是将其应用于真实世界的“实战”。研究人员会使用少量的、通过真实实验测得的“序列-功能”数据(例如蛋白质的荧光亮度、催化活性或结合能力)对预训练好的模型进行微调(fine-tuning)。在这一阶段,模型会将它学到的生物物理学知识与特定的生物学功能联系起来。由于模型已经具备了强大的物理先验知识(prior knowledge),它不再需要从零开始学习,因此即便是非常少的实验数据,也足以让它快速地掌握序列与特定功能之间的映射关系。
理论的巧妙,最终需要由实验数据来检验。研究人员设置了一系列严苛的“考场”,让METL模型与当前主流的多种基准模型同台竞技。其中,最关键的考验,莫过于在小样本学习场景下的表现。在真实的蛋白质工程项目中,获取大量高质量的实验数据往往是昂贵且耗时的,因此,一个模型能否在数据稀疏的情况下依然保持强大的预测能力,是其是否具有实用价值的关键。
研究人员在11个不同的实验数据集上进行了测试。结果令人振奋。在绝大多数数据集上,当训练样本数量非常有限时(例如,少于100个),专为特定蛋白质预训练的METL-Local模型表现出了明显的优势。以绿色荧光蛋白(Green Fluorescent Protein, GFP)数据集为例,当训练样本只有几十个时,METL-Local的性能曲线显著高于其他所有模型。这背后的原因不难理解。对于没有经过物理预训练的模型来说,当面对少量数据时,它们很容易陷入“过拟合”(overfitting)的陷阱。而METL-Local,由于在预训练阶段已经“见过”了数千万个虚拟突变体,并深刻理解了其背后的物理规律,因此它在微调时,实际上是在一个已经高度优化的知识基础上进行学习。这种强大的生物物理学先验,使其能够更有效地利用每一个宝贵的实验数据点,从而在“数据荒”中脱颖而出。
如果说小样本学习是检验模型数据效率的“期中考”,那么外推能力(extrapolation)的测试,则是一场检验模型“智慧”与“想象力”的“期末大考”。在蛋白质工程实践中,我们常常希望模型能够预测那些在训练集中从未出现过的情况。
在这四场严苛的“加试”(突变外推、位置外推、组合外推和功能值外推)中,METL-Local再次展现了其独特的优势,尤其是在最具挑战性的位置外推任务上。在所有11个数据集上,METL-Local的位置外推性能平均斯皮尔曼相关系数达到了0.59,与另一个表现优异的ProteinNPT模型(0.65)并驾齐驱,显著优于那些纯粹依赖序列进化信号的模型。
为何METL-Local在此项任务上表现如此出色?答案依然在于其独特的预训练方式。在其“虚拟实验”阶段,METL-Local的预训练数据已经系统性地覆盖了蛋白质所有位置的所有可能的氨基酸突变。尽管这些只是物理模拟数据,但它们已经为模型注入了关于每个位置在结构和能量上的重要性的“先验知识”。因此,即使在微调阶段某个位置没有任何实验数据,模型依然可以调用其在预训练中学到的物理“直觉”来做出合理的推断。这种能力,对于指导蛋白质工程师探索全新的、未知的序列空间,具有不可估量的价值。
METL框架的核心是利用模拟数据来增强模型,那么一个自然而然的问题是:模拟数据和真实实验数据之间的“价值”关系是怎样的?为了量化这一关系,研究人员进行了一项巧妙的分析。他们以GB1蛋白为研究对象,系统地改变预训练和微调的数据量,绘制了一张“等性能图谱”(iso-performance map)。
这张图谱揭示了一个有趣的“汇率”。例如,研究人员发现,一个在8000个模拟数据点上预训练、然后在80个实验数据点上微调的模型,其最终性能与一个在1000个模拟数据点上预训练、然后在320个实验数据点上微调的模型几乎完全相同。
让我们来算一笔账:在这两种情况下,为了达到同样的性能,前者比后者多用了7000个模拟数据点,但节省了240个实验数据点。这意味着,在这个特定的任务和数据范围内,大约29个模拟数据点所提供的信息增益,才相当于1个真实实验数据点。
这个“29:1”的汇率,一方面说明了真实世界实验数据的“含金量”之高,但另一方面,它也证明了模拟数据的巨大价值。在实验资源极其有限的情况下,通过大规模的计算机模拟,我们确实可以有效地“弥补”真实数据的不足,以一种极具性价比的方式来提升模型的性能。
所有理论和模型的最终试金石,都是解决真实世界的问题。在该研究中,研究人员进行了一项极具挑战性也极具说服力的实验:利用METL-Local模型,在一个极度数据稀缺的场景下,从头设计全新的、具有功能的GFP变体。
他们设定了一个非常苛刻的条件:用于微调模型的训练集,仅仅包含了64个随机挑选的GFP序列及其对应的荧光亮度数据。为了进一步增加难度,他们还设置了两种设计策略:一种是“所见即所得”(Observed AA),设计的序列只能使用训练样本中出现过的突变类型;另一种是“大胆想象”(Unobserved AA),设计的序列必须排除所有训练样本中出现过的突变。
实验结果令人瞩目。在相对简单的“所见即所得”策略下,AI设计的10个蛋白质全部成功,都表现出了可测量的荧光,成功率高达100%!而在极具挑战性的“大胆想象”策略下,模型设计的10个蛋白质中,有6个也成功发光,成功率达到了60%。相比之下,作为对照的20个随机序列中,只有一个表现出微弱的荧光。
这一结果有力地证明,METL模型在数据极其有限的情况下,不仅学到了有效的序列-功能关系,更重要的是,它能够将这些知识泛化到遥远的、未曾探索过的序列空间,成功地指导了全新功能蛋白的创造。这已经不再是简单的“预测”,而是真正意义上的“设计”。
METL框架的问世,其意义远不止是创造了一个性能更优的模型。更重要的是,它代表了一种全新的、将第一性原理知识与数据驱动学习深度融合的设计哲学。AI在探索生命奥秘的征途上,不应仅仅满足于做一名过目不忘的“史学家”,记录和模仿进化的结果;它更应该努力成为一名洞悉底层的“物理学家”,理解并运用支配生命分子的基本法则。
该研究所推开的,是一扇通往未来的大门。METL的框架具有极强的可扩展性。我们可以想象,未来的预训练数据将不再局限于Rosetta计算的静态结构能量。同时,我们也不应将生物物理学与进化信息对立起来。未来的终极模型,或许会将两者完美融合:以强大的进化语言模型作为基座,使其具备广博的进化“常识”,然后再利用METL的框架,为其注入精准的生物物理学“洞见”。
从“知其然”到“知其所以然”,METL在这条道路上迈出了坚实而关键的一步。它让AI的“思考”方式,向着生命运作的本质,又靠近了一分。对于所有致力于解读和编写生命密码的研究者而言,这无疑是一个令人心潮澎湃的信号。一个由物理定律引导、由数据驱动的蛋白质工程新纪元,正悄然拉开序幕。
参考文献
Gelman S, Johnson B, Freschlin CR, Sharma A, D'Costa S, Peters J, Gitter A, Romero PA. Biophysics-based protein language models for protein engineering. Nat Methods. 2025 Sep 11. doi: 10.1038/s41592-025-02776-2. Epub ahead of print. PMID: 40935922.
声明:本文仅用于分享,不代表平台立场,如涉及版权等问题,请尽快联系我们,我们第一时间更正,谢谢!
来源:生物探索一点号1