Baker再创奇迹!RFdiffusion3原子级精控,生物分子设计新纪元

B站影视 日本电影 2025-09-24 16:55 1

摘要:2025 年 9 月 18 日,David Baker 团队在预印本平台 bioRxiv 上发表了题为:De novo Design of All-atom Biomolecular Interactions with RFdiffusion3的研究论文。

编辑:香瓜

2025 年 9 月 18 日,David Baker 团队在预印本平台 bioRxiv 上发表了题为:De novo Design of All-atom Biomolecular Interactions with RFdiffusion3的研究论文。

该研究提出了一种全原子扩散模型——RFdiffusion3(RFD3),实现了全原子生物分子相互作用的从头设计,能够在配体、核酸和其他非蛋白质原子簇的背景下生成蛋白质结构,其比前代方法更简单且更高效。在一系列计算机模拟基准测试中,RFdiffusion3 的性能更优,且计算成本仅为前代方法的十分之一。

想理解RFdiffusion3(简称RFD3)到底有多颠覆,得先看看它的前辈们是怎么干活的。之前的模型,无论是Baker团队自己开发的RFdiffusion(RFD1)和后续的RFdiffusion2(RFD2),还是DeepMind用于预测的AlphaFold3(AF3),它们的“世界观”都有着根本的局限。它们思考和设计的“基本语言”,是氨基酸。

这就好比用一个个字母(氨基酸)去拼凑一篇文章(蛋白质)。对于设计一个单独的蛋白质,或者让几个蛋白质组装在一起,这种方法勉强够用。但生物世界远比这复杂。真正的功能,往往发生在蛋白质与那些非蛋白质的小伙伴——比如药物小分子、遗传物质DNA——相互作用的瞬间。

这时候,只盯着氨基酸这个“字母”就不灵了。关键在于氨基酸侧链上那些特定的原子,它们才是真正伸出手去跟别人“握手”的。RFD1和RFD2在这种精细活儿上就显得束手束脚,它们无法有效地编成这些关键的侧链相互作用。虽然RFD2尝试过打补丁,对少数关键原子进行特殊处理,但骨子里,它的扩散过程依然是氨基酸级别的,没法从根子上解决问题。

就连名声大噪的AlphaFold3,虽然在预测时已经用上了基于每个原子进行扩散的先进思想,但把它调个头来用于从头创造,去设计一个能与非蛋白成分完美互动的全新蛋白质,它也同样力有不逮。

RFD3的出现,彻底改变了游戏规则。它干脆扔掉了“氨基酸字母表”,直接开始讲“原子坐标”这门新语言。它的核心策略堪称简单粗暴又极其有效:统一原子表示法。不管你是哪种氨基酸,侧链有多少个原子,到了RFD3这里,一律被强制表示成一个包含14个原子的标准集合。其中4个是主链原子,10个是侧链原子。原子不够怎么办?用虚拟的“幽灵”原子来凑数。

这一招直接铲平了长期以来的技术障碍,让模型可以在一个完全统一的原子坐标空间里去学习和生成。这带来的改变是质的飞跃。设计师终于不再是隔靴搔痒地调整蛋白质的整体拓扑结构,而是能像程序员一样,直接“编程”真实的物理化学性质。想在这里来一个氢键?没问题,直接指定哪个原子是供体,哪个是受体。想控制某个区域的亲水性,或者想让一个小分子药物被紧紧地包裹在蛋白质内部?这些过去难以企及的精细操作,现在都成了可以精确调控的参数。

当然,光有革命性的概念还不够,你得让它跑得起来,还得跑得快。RFD3的厉害之处,就在于它不仅实现了原子级的超高精度,还兼具了令人咋舌的计算效率,这为技术的规模化应用扫清了障碍。

这背后的秘密武器,是其巧妙的计算架构。模型的大脑基于一种被称为TransformerU-Net的结构。它最聪明的地方在于,设计了一套原子级与残基级的双向信息交互机制。这意味着,模型既能像个显微镜一样,死死盯住局部几个原子之间的精细排布,又能像个广角镜头,时刻关注着整条氨基酸链的全局折叠是否合理。

为了让局部和全局的信息高效联动,它还用上了稀疏注意力和交叉注意力这样的时髦技术。这套组合拳打下来,保证了最终设计出的蛋白质,既在微观上符合物理化学规律,又在宏观上能稳定地折叠成预期的三维结构。

更让人惊喜的是,如此强大的模型,身材却异常“苗条”。它的参数量只有1.68亿,差不多是AlphaFold3的一半。小巧的身材带来了巨大的性能红利:它的推理速度比前代方法快了整整十倍,而计算成本,更是只有原来的十分之一。

这种效率的飞跃,意义远超省下一点电费。它意味着,过去需要漫长等待和高昂成本的大规模虚拟筛选,如今变成了现实。

科学家们可以在电脑里轻松设计并测试成千上万个候选分子,快速迭代,大浪淘沙,只把最有希望的几个拿去做实验验证。这无疑将从创意到候选分子的整个研发进程,按下了十倍速的快进键。

那么,这个听起来如此强大的模型,实际表现究竟如何?RFD3用一系列横跨虚拟基准测试和真实实验的硬核数据,证明了自己绝非纸上谈兵。

在计算机模拟的靶场上,它展现了碾压级的优势。就拿极具挑战性的酶设计来说,在一个包含41个原子级活性位点的基准测试中,RFD3在其中37个案例上的表现都优于前代RFD2。尤其是在那些需要将多个分散的残基像搭积木一样精确拼接到位的复杂活性位点设计上,它的成功率达到了15%,而RFD2只有可怜的4%。它甚至成功搭建了一个由七个独立“残基岛屿”构成的超复杂活性位点。

再看药物研发界高度关注的蛋白相互作用设计。研究人员选取了PD-L1、胰岛素受体等五个热门的治疗靶点进行考验。老将RFD1平均只能给出1.4个像样的设计方案家族,而RFD3一出手,就平均能产生8.2个成功的设计聚类。这意味着设计的多样性和成功率都得到了巨大提升。

而在它最独特的“主场”——与小分子和核酸的相互作用设计上,RFD3更是秀出了独门绝技。它不需要你预先设定好药物分子或DNA片段的精确姿态,而是能把蛋白质结构和配体的三维坐标一同生成出来。这对于那些自身构象就很灵活的配体来说,简直是福音。在设计DNA结合蛋白的任务中,它在训练集之外的序列上也取得了不俗的成功率。

模拟终究是模拟,真正的考验在实验室里。研究团队首先挑战了DNA结合蛋白的设计。他们采用两步走的策略,先用RFD3进行初步设计,再对关键基序的骨架进行精细优化。从众多设计中,他们挑选了5个进行合成,并通过酵母表面展示技术进行筛选。最终,一个设计蛋白脱颖而出,它确实能够结合DNA,结合活性达到了5.89微摩尔的水平。这证明,从计算机代码到具有真实生物功能的分子,这条路走通了。

如果说结合蛋白的验证还只是“开胃菜”,那么酶设计的成功则是当之无愧的“主菜”。团队这次的目标是设计一种全新的半胱氨酸水解酶,他们基于经典的催化三联体结构定义了活性位点。一口气设计并筛选了190个候选蛋白,结果令人振奋:其中35个都表现出了多次催化转换的活性。而其中表现最好的那个,其催化效率值(Kcat/Km)高达3557。这是一个惊人的数字,它超越了此前所有针对该化学反应的人工设计酶。这无可辩驳地证明了,RFD3设计出的分子,不仅长得像那么回事,更能高效地干活儿。

RFdiffusion3的诞生,不仅仅是诺奖得主DavidBaker团队在荣誉加身后献上的又一杰作,它更像是合成生物学领域的一次范式革命。它釜底抽薪,将设计的焦点从模糊的氨基酸残基,直接下沉到了构成万物的基本单位——原子。

这种深入骨髓的控制力,让科学家第一次拥有了一把可以精确雕刻氢键、疏水作用力等关键物理化学细节的手术刀。再加上计算效率的巨大飞跃,一个为任意靶分子设计结合蛋白、为任意化学反应设计催化剂的通用平台已然成型。

我们正站在一个新纪元的门口。在这个纪元里,科学家们能以前所未有的精度去系统性地构建和定制具有复杂功能的生命分子。这不仅预示着创新疗法、高效的工业用酶、智能生物材料和灵敏生物传感器的开发将大大提速,也让我们离那个“设计生命”的终极梦想,又实实在在地走近了一大步。

来源:怎么回史

相关推荐