摘要:“我们实现了 AI 在蛋白质动力学模拟中的应用,并证明了 AI 不仅能用于静态结构预测,还能在需要数十亿甚至数百亿步的动态过程中发挥巨大作用。”谈及这项经历四年发布在Nature上的论文,微软研究院科学智能中心高级研究员王童如是说。
“我们实现了 AI 在蛋白质动力学模拟中的应用,并证明了 AI 不仅能用于静态结构预测,还能在需要数十亿甚至数百亿步的动态过程中发挥巨大作用。”谈及这项经历四年发布在 Nature 上的论文,微软研究院科学智能中心高级研究员王童如是说。
近期,微软研究院科学智能中心(AI for Science)王童博士团队基于 AI 开发了量子级动力学模拟系统 AI2BMD(AI powered ab initio biomolecular dynamics),并兼具高精度和高效率。
值得关注的是,该系统在保持和量子模拟相同精度的同时,实现了超过 100 万倍的加速,极大地提升了模拟效率,使得原本需要数月甚至更长时间的模拟任务,能在 2 秒多的时间一步完成。
与经典模拟相比,AI2BMD 系统将力的计算误差减少了 10 倍以上,达到了量子级精度,即从头计算的精度水平。这不仅大幅提高了模拟准确性,还打破了传统经典模拟中为防止体系崩溃而设置的人为约束,使模拟更贴近真实生物体系。
自由能是描述分子自发行为的定量指标,类似于分子层面的“动机”。通过 AI2BMD 系统的模拟,研究人员能够更准确地计算出蛋白质在折叠过程中的自由能等关键性质,以及蛋白质的热熔等其他性质。
在药物设计中,精确计算药物分子与靶标蛋白的亲和力至关重要,有助于帮助开发出更有效的药物。该系统的精确计算有望为药物设计、酶工程和疾病治疗等领域提供更可靠的理论依据和数据支持。
此外,AI2BMD 系统还能从动态视角提供精确的自由能计算,利于揭示实验观察不到的过程背后的原理,为精准医疗和相关领域带来新的突破和认识。
日前,相关论文以《使用 AI2BMD 对蛋白质分子动力学的从头计算表征》(Ab initio characterization of protein molecular dynamics with AI2BMD)为题发表在 Nature[1]。据悉,AI2BMD 系统的相关代码已开源。
微软研究院高级研究员王童博士是第一作者兼通讯作者,Yatao Li 研究员以及在微软研究院实习的 Xinheng He、Mingyu Li 是共同第一作者,Bin Shao 博士担任共同通讯作者。
图丨相关论文(来源:Nature)
高精度和高效率:经历半个多世纪发展的“鱼和熊掌”问题
最近,AI 在生命科学领域取得了重大突破,尤其是在蛋白质领域,2024 年的诺贝尔化学奖授予了 AI 预测和设计蛋白质的复杂结构。
蛋白质是生命活动的核心,如果将蛋白质看作时钟中的齿轮,蛋白质结构预测就像是静态地观察这些齿轮在某一瞬间的状态,而动力学模拟的重点关注则是这些“齿轮”如何动态运转。
动力学模拟的挑战在于,需要在计算机上模拟细胞中蛋白质的动态运动过程。通常每一步的模拟时间仅有 1 飞秒(10-15 秒),而要观察一个完整的生物过程可能需要数十亿到数千亿步的模拟。因此,动力学模拟的难度远大于蛋白质结构预测。
在模拟蛋白质动力学的过程中,高精度和高效率是两个主要挑战。在预测中的微小误差会通过蝴蝶效应逐渐累积放大,最终导致整个模拟体系的崩溃。
此外,效率问题也同样不可忽视。例如,模拟 1 微秒的变化需要 10 亿步,按每步 1 分钟计算,将耗费约 1900 年。
在动力学模拟领域,量子力学和经典力学是两种主要的模拟方法,但高精度和高效率就像“鱼和熊掌不可兼得”。量子力学方法准确性高,但计算效率低;而经典力学方法虽然计算速度快,但精度较低。
长期以来,这两种方法在准确性与效率之间做出了不同的权衡。而微软研究院的研究团队将 AI 应用于分子动力学模拟,为领域开辟了一种全新的方法。
比量子模拟速度提升 100 万倍以上
领域内存在半个多世纪的“遗留问题”是怎样被解决的呢?
实际上在项目初期,研究人员并没有太高的预期,因为缺乏相关数据、模型、技术路线和文献,一切都是“从零开始”。
研究伊始,他们面临的核心挑战是深度学习模型的泛化问题。研究人员最初的想法是直接利用深度学习模型来拟合高质量的蛋白质数据,以实现高精度的能量和力预测。
基于此,他们为特定蛋白质生成了大量的高质量数据,并训练模型以拟合这些数据。然而,由于这种方法缺乏泛化能力,在模拟其他蛋白质时,模型的预测准确性会大幅下降。
“因为模型仅见过特定蛋白质的数据,这会导致在长时间模拟过程中,一旦模型给出不准确的预测,整个模拟体系就可能崩溃或产生不准确的结果。”王童说。
图丨AI2BMD 技术流程图(来源:Nature)
为了解决这一问题,他们采用了计算机科学中的经典策略——“分而治之”。研究人员意识到,虽然不同蛋白质之间存在差异,但它们都由一系列氨基酸残基组成,而这些氨基酸是蛋白质的共通点。
王童进一步说道:“我们可以将蛋白质看作由氨基酸积木搭建的结构,虽然无法为每个蛋白质生成大量数据,但可以为这些基本的氨基酸积木生成数据。这些积木足够小,使得量子模拟的计算代价大大降低。”
研究人员首先为这些氨基酸生成了量子模拟数据,并训练了深度学习模型。在实际模拟过程中,他们将蛋白质拆分成氨基酸,利用深度学习模型预测每个“积木”的受力情况,然后将这些“积木”重新拼装回蛋白质的整体结构,使其能够向前移动。每一步都包括拆分、计算和拼装的过程。
尽管蛋白质种类繁多,但基本的氨基酸单元是有限的。研究人员通过对每种氨基酸进行穷举搜索和构象计算,使模型能够应对任意蛋白质的模拟需求,进而成功解决了泛化性问题。
与此同时,该系统还实现了对蛋白质高准确性和高效率的结合。研究人员将 AI 和深度学习引入了动力学模拟领域,利用 AI 和深度学习模型,避免了密度泛函理论等传统的量子模拟方法中复杂的偏微分方程求解过程。
此外,团队成员王童、李亚韬、毕然等自主开发设计的 AI 驱动的分子动力学模拟系统,模拟速度比同类系统快 200 倍以上。王童表示:“这得益于我们对模拟算法的深度优化和创新,使得在相同的 AI 模型基础上,该系统能够更高效地进行动力学模拟。”
图丨 AI2BMD 与密度泛函理论以及其他 AI 驱动的动力学模拟软件速度的比较(来源:Nature)
在模拟过程中,研究人员利用 AI 和深度学习模型精确计算每个原子所受的力。受到力后,原子会在一定时间内产生位移,从而带动整个分子的运动。每个原子的运动汇聚成整个分子的运动,进而引发蛋白质结构的显著变化。
蛋白质的折叠过程就像从松散的伸展结构,转变为具有功能的折叠态结构。这一过程需要数十亿甚至数百亿步的模拟过程,这与蛋白质在完成其功能后可能会再次发生结构变化,转变为其他不同的结构状态。
在不施加任何干预的情况下,通过仿真这一过程,能够获得蛋白质的各种性质。了解这些性质有助于揭示和理解人类能说话、能走路的原因,以及当蛋白质功能出现问题时,人为什么会生病、病毒如何侵染人体细胞导致疾病,以及如何设计药物来抵抗这一过程。
有望为药物设计、酶工程和疾病治疗等领域提供关键数据支持
AI2BMD 系统具有广阔的应用前景。从短期来看,目前该系统可以用来模拟蛋白质的折叠过程,并观察其结构变化。
王童表示:“该技术为领域提供了一种全新的视角,就像揭开了手表后盖,能够直观地观察到内部复杂机械齿轮的运转过程,进而可以更准确地刻画生命体系中蛋白之间的相互运动并计算出各种蛋白质性质。”
图丨微软研究院首席研究员刘海广博士(右一)、高级工程师毕然博士(中)、高级研究员王童博士(来源:微软研究院)
随着技术的发展,他们计划将蛋白质模拟推广到蛋白质与药物分子之间的相互作用,以及蛋白质之间的相互作用,这对于更好地理解生命活动过程和相关机理、药物发现、药物设计具有重要意义。
图丨 AI2BMD 与经典模拟在蛋白 Chignolin 折叠过程的模拟表现(来源:Nature)
近年来,生成式模型在科学领域扮演着越来越重要的角色,能够生成大量的潜在药物分子或蛋白质序列。然而,如何从众多候选分子中筛选出真正能与靶标蛋白结合且具有更高亲和力的分子,仍是一个亟待解决的问题。“我们的模型将致力于解决这一难题,帮助识别出最有潜力的候选药物分子。”王童表示。
更长远地来看,AI2BMD 系统还有望用于研究酶催化过程和复杂生物体系的动态变化。酶催化是一种特殊的蛋白质催化过程,其时间跨度较长,可能涉及多种蛋白质以及基础的生物过程。
例如,生命体的呼吸作用和绿色植物的光合作用,都有一系列酶参与的生化反应。此外,复杂生物体系的动态变化,如细胞增值过程中的脱氧核糖核酸(DNA,DeoxyriboNucleic Acid)转录成核糖核酸(RNA,RibonucleicAcid)、翻译成蛋白质等,也不是简单的蛋白质相互作用,而是涉及核酸、细胞膜、细胞器等多种因素的复杂生命过程。
王童指出,通过动态研究这些过程,可以对衰老、细胞凋亡、肿瘤的发生等复杂现象形成更深入的理解,从而为相关疾病的预防和治疗提供有力支持。
据了解,目前该团队正在与全球健康药物研发中心合作,利用 AI2BMD 系统以及其他自主研发的计算技术和模型,推动药物设计、虚拟筛选和药物评价的过程。“我们非常相信,以 AI2BMD 为代表的计算方法能够更好地促进药物设计领域、蛋白质设计以及精准医疗等领域的落地和产业化工作。”
来源:东窗史谈