摘要:2024 年 10 月,华盛顿大学 David Baker 教授与 DeepMind 的 Demis Hassabis 和 John Jumper 共同获得诺贝尔化学奖,前者开创了利用计算方法设计自然界不存在蛋白质的全新方向,后者推动了蛋白质三维结构预测的突破
2024 年 10 月,华盛顿大学 David Baker 教授与 DeepMind 的 Demis Hassabis 和 John Jumper 共同获得诺贝尔化学奖,前者开创了利用计算方法设计自然界不存在蛋白质的全新方向,后者推动了蛋白质三维结构预测的突破。近年来,生成式人工智能在蛋白质设计中的应用发展迅速。Baker 团队相继提出 RFdiffusion 和 RFdiffusion2,逐步提升了在蛋白质单体、组装体以及结合蛋白方面的设计能力,但由于仍基于氨基酸层级建模,难以精准处理与小分子和核酸的原子级相互作用。在结构预测方面,DeepMind 开发的 AlphaFold3 展示了原子扩散模型的强大能力。然而,在从头生成(de novo design) 与非蛋白质成分精确互作的全新蛋白质结构方面,仍需新的方法。
图 | David Baker 教授
2025 年 9 月 18 日, Baker 团队在预印本 bioRxiv 发布了最新成果 “De novo Design of All-atom Biomolecular Interactions with RFdiffusion3”,提出全新的 RFdiffusion3(RFD3),首次在生成式建模中引入全原子扩散机制,实现了对蛋白质及其配体、DNA 等生物分子相互作用的原子级控制。这一进展为计算蛋白质设计开辟了新的方向。
RFD3 的核心突破在于将扩散模型的基本单元从残基转向原子。这意味着设计者可以直接操控氢键、范德华力、疏水作用等真正决定分子识别与催化效率的原子间相互作用,实现了从“调控拓扑”到“编程物化性质”的飞跃。研究团队提出统一原子表示策略,将每个氨基酸残基表示为 14 个原子,即 4 个主链原子和最多 10 个侧链原子,对于原子数不足的氨基酸则以虚拟原子补齐。这种统一化处理让模型能够在不依赖氨基酸类别的前提下学习结构生成规律。
在模型架构上,RFD3 基于 Transformer U-Net,设计了原子级与残基级特征的双向交互机制,通过稀疏注意力和交叉注意力在局部原子环境和全局折叠拓扑之间建立联系,从而在生成过程中兼顾局部精细化与整体合理性。与前代方法相比,RFD3 在条件控制能力上也大幅扩展,研究者可以直接指定氢键供受体、溶剂可及性、配体埋藏程度、蛋白质质心位置甚至对称性约束,使生成的结构严格符合功能需求。
图 | 实现原子级精准控制的生成模型
在计算效率方面,RFD3 展现了显著优势。其架构经过简化,参数量减少,推理速度较 RFD2 提升约十倍,为大规模筛选和快速迭代提供了可能。在性能测试中,RFD3 在多个设计任务上均表现突出。蛋白质-蛋白质结合方面,研究团队选择包括 PD-L1 和胰岛素受体在内的五个靶点进行比较,结果显示 RFD3 在成功率和设计多样性上均明显优于 RFD1,平均可产生 8.2 个独特成功聚类,而 RFD1 仅为 1.4 个。蛋白质-核酸相互作用设计向来困难,RFD3 能够基于给定 DNA 序列同时生成蛋白质结构与 DNA 三维构象,并在训练集外序列的测试中取得单体平均 8.67%、二聚体平均 6.67% 的成功率,生成结果在多样性上也优于传统方法。
在小分子结合蛋白的设计中,RFD3 不仅在固定配体模式下超过 RFdiffusionAA,更能在无需预设配体构象的条件下与蛋白质结构共同采样,得到结合能更优且结构更具新颖性的复合体。这种能力尤其适用于存在多种构象的小分子。对于酶设计,RFD3 在 41 个原子级活性位点基准案例中有 37 个表现优于 RFD2,在包含多个残基岛的复杂活性位点设计中成功率达到 15%,显著高于 RFD2 的 4%,并能有效处理对称性约束,甚至成功搭建了包含七个残基岛屿的复杂活性位点,充分展示了其在构建复杂催化中心方面的强大潜力。
在实验验证环节,研究团队选择了 DNA 结合蛋白和半胱氨酸水解酶作为测试对象。针对特定 DNA 序列 CGAGAACATAGTCG,研究者采用两阶段策略:首先利用 RFD3 以 AF3 预测的 DNA 结构为条件进行初始设计;随后对潜力设计固定其 DNA 结合基序,并进一步优化骨架结构,从而得到最终候选,并通过酵母表面展示进行筛选。在 5 个合成蛋白中,有 1 个表现出微摩尔级结合活性,EC50 达到 5.89±2.15μM,验证了计算结果的可行性。在酶设计中,团队基于天然 Cys-His-Asp 三联体定义活性位点模型,生成并筛选 190 个候选,其中 35 个展现了多轮催化活性,最优设计的催化效率 Kcat/Km 为 3557,超过此前所有针对该反应的设计成果。这表明 RFD3 不仅能生成稳定结构,更能在实验中展现预期的生物化学功能。
图 | 从计算到实验的功能验证
RFdiffusion3 的出现,将蛋白质设计从残基级别推向原子级别,使研究者能够以前所未有的精度定义功能。通过在生成过程中引入细致的条件约束,它为设计者提供了一个灵活而强大的工具,可以在任意目标分子背景下定制结合蛋白,或者构建具有特定催化功能的酶。其计算效率的提升使这种方法具备大规模应用的可能。对于合成生物学而言,这意味着可以更直接地设计新型生物传感器、精准靶向的治疗工具以及高效的工业酶,从而加速人工生命系统与绿色制造的探索。作为蛋白质设计领域的又一里程碑,RFD3 不仅展示了全原子建模在功能实现上的优势,也进一步证明了通过计算方法系统性构建生命功能的可行性
参考链接:
1.Watson JL, Anishchenko I, Zhang S, et al. De novo design of all-atom biomolecular interactions with RFdiffusion3[J]. bioRxiv, 2025: 2025.09.18.676967.
免责声明:本文旨在传递合成生物学最新讯息,不代表平台立场,不构成任何投资意见和建议,以官方/公司公告为准。本文也不是治疗方案推荐,如需获得治疗方案指导,请前往正规医院就诊。
来源:生辉SciPhi