新一代AI模型D-I-TASSER实现超越AlphaFold3高精度蛋白质结构

B站影视 欧美电影 2025-06-06 20:34 2

摘要:研究背景深度学习方法,如AlphaFold2和AlphaFold3,大幅提升了蛋白质三级结构预测的精度,但是其在孤儿蛋白(同源序列较少的蛋白)上的预测效果仍不理想。此外,当前主流方法多聚焦于单结构域蛋白,而自然界中大量蛋白质实际上由多个结构域构成。如何高效且准

研究背景

深度学习方法,如AlphaFold2和AlphaFold3,大幅提升了蛋白质三级结构预测的精度,但是其在孤儿蛋白(同源序列较少的蛋白)上的预测效果仍不理想。此外,当前主流方法多聚焦于单结构域蛋白,而自然界中大量蛋白质实际上由多个结构域构成。如何高效且准确地预测孤儿蛋白和多域蛋白的三维结构,仍是当前亟待解决的关键科学难题。

结果与展望

本文提出了D-I-TASSER蛋白质结构预测算法(图1)。该方法首先通过 DeepMSA2 构建多序列比对, 随后结合 DeepPotential、AttentionPotential 以及 AlphaFold2 等深度学习模型生成空间几何约束, 最后,在深度学习约束与统计物理能量函数共同构成的力场驱动下,采用 REMC 蒙特卡洛模拟算法进行蛋白质结构构建。此外,D-I-TASSER 还引入了一个全新的结构域划分与组装模块,可实现多域蛋白结构自动化预测,进一步拓展了算法在复杂蛋白结构建模中的适用性。

图1. D-I-TASSER对蛋白结构预测算法流程

整合深度学习与统计物理能量的D-I-TASSER算法精度大幅优于AlphaFold系列算法。图2A展示了D-I-TASSER在500个困难单域蛋白上的基准测试结果。该方法的结构预测精度得益于整合多种深度学习约束势能。随着不同类型约束的逐步加入,模型TM-score持续上升。最后,整合全部深度势的D-I-TASSER模型TM-score达到0.870,显著高于DeepMind开发的AlphaFold系列,包括AlphaFold2(0.829)和AlphaFold3(0.849)。图中所示的TM-score用于衡量结构预测精度,范围为0到1,值越高表示预测与真实结构越接近。图2B进一步展示D-I-TASSER在磷酸合酶结构预测过程中的构象收敛轨迹。在深度学习约束与统计物理能量函数的引导下,模型精度在前40轮REMC模拟中稳步提升,最终TM-score稳定在0.96左右,表明AI与统计物理能量的结合能够有效揭示蛋白质的折叠过程。 加入结构域处理模块的D-I-TASSER算法能够高精度地预测多结构域蛋白质。 D-I-TASSER与AlphaFold2在230个多域蛋白上的结构预测比较结果显示D-I-TASSER全链和单域的TM-score分别为0.720和0.858,相较于AlphaFold2分别提升了12.9%和2.8% (图2C)。

D-I-TASSER(参赛名UB-TBM)参加了第15届世界蛋白质结构预测大赛(CASP15),在单域蛋白和多域蛋白(图2D-E)两个单项比赛中均排名第一。其在50个困难(FM)目标和20个多域目标上的平均TM-score,均显著高于所有版本的AlphaFold,包括AlphaFold3 (图2F)。 此外,D-I-TASSER对人类基因组的19,512个蛋白质和34,968个结构域进行了结构建模。D-I-TASSER成功预测了80.5%的单域和72.8%的全链结构 (图2G),与AlphaFold2数据库的结构模型高度互补。

图2. D-I-TASSER在基准测试、CASP15和人类蛋白质组预测中的综合表现

综上所述, D-I-TASSER在大规模蛋白质结构预测,尤其是困难多域蛋白上的优异表现,展示了一种融合深度学习与经典统计物理能量函数进行结构预测的新途径。

作者简介

新加坡国立大学张阳教授为本文通讯作者,常年从事基于人工智能的蛋白质和RNA结构预测及序列设计研究,其团队开发的计算机算法连续9次获得CASP大赛冠军。密歇根大学 Lydia Freddolino 副教授为共同通讯作者。共同第一作者包括南开大学统计与数据科学学院教授郑伟,其研究方向为基于深度学习的生物分子及其互作的结构预测及应用,在CASP大赛中累计获得十项比赛排名第一;密歇根州立大学计算机科学与工程系博士乌云其其格,其研究方向为系统进化、蛋白质结构预测及应用;以及新加坡国立大学癌症科学研究所特别研究员及资深研究科学家李阳,专注于深度学习在结构生物信息学中的研究与应用。

来源:晚晚的星河日记一点号

相关推荐