Int. J. Biol. Macromol | MF-ProtDisMap:山农大团队蛋白质结构预测新框架,赋能基因精准设计

B站影视 内地电影 2025-09-29 18:10 1

摘要:蛋白质结构的精确解析是理解生物微观分子机制、基因精准设计的基础。尽管AlphaFold2在蛋白质结构预测方面取得了显著成果,但如何进一步优化关键功能区域(如酶的活性位点、蛋白-配体结合界面)及独立结构域的预测精度,仍是当前学界关注的核心问题与研究焦点。残基间实

研究背景

蛋白质结构的精确解析是理解生物微观分子机制、基因精准设计的基础。尽管AlphaFold2在蛋白质结构预测方面取得了显著成果,但如何进一步优化关键功能区域(如酶的活性位点、蛋白-配体结合界面)及独立结构域的预测精度,仍是当前学界关注的核心问题与研究焦点。残基间实值距离预测不仅能为解决上述问题提供了高分辨率的几何约束,还能直观反映其内部相互作用与空间组织,从而使模型预测结果具有更强的可解释性。传统方法依赖多重序列比对(MSA)的共进化特征或语言模型的序列特征,但二者各有局限:前者计算成本高,后者可能忽略蛋白质空间相互作用。这种割裂导致距离预测精度遭遇瓶颈,直接影响后续结构建模的可靠性。

论文概述

山东农业大学张亮王宏伟教授合作在International Journal of Biological Macromolecules上发表了题为“MF-ProtDisMap: protein real-valued distance prediction with fusion of sequence and coevolutionary features”的研究论文。该研究提出了一种全新的蛋白质实值距离预测框架 ——MF-ProtDisMap(Multi-Feature Protein Distance Map)。并在残基距离预测任务中平均绝对误差(MAE)低至2.20Å,均方根误差(RMSE)3.40Å,残基接触预测任务中ROC值达84.56%,PR值81.01%,超越现有最优方法。

双通道特征提取与融合

该框架通过两大核心策略实现特征的深度挖掘与融合:一方面,利用MSA Transformer捕捉蛋白质及其同源序列的协同进化特征;另一方面,借助ESM2高效解析蛋白质序列中隐含的相互作用与全局语义信息。通过将上述共进化特征与序列语义特征进行跨维度融合,有效实现了特征信息的协同增强,显著提升了特征表征的多样性与丰富度。针对多特征融合可能带来的维度爆炸问题,研究团队采用 “group pooling”策略,在最大程度保留融合特征信息的前提下,有效降低计算成本,实现了特征的高效压缩与深度融合,为后续精准预测奠定基础。

Diff-former模块增加表示学习

考虑到扩散模型在无监督语义表示学习中的优势,特别是它学习有意义的数据表示可以增强下游预测任务的能力。Diff-former 模块将扩散模型的语义建模能力与三角注意力机制相结合,不仅增强 MSA 特征表征能力,还能通过隐式学习捕捉特征中的深层语义关联,显著提升了特征的利用率。

ProtDisFold实现从实值距离约束构建蛋白质结构

鉴于缺乏能够直接从实值距离预测重建蛋白质结构的可用工具,我们开发了ProtDisFold,用于距离约束结构建模。并成功重建了祖先植物α/β-水解酶(PDB ID:7ukb)、Fhb7-GST和植物NLR Sr35的三级结构。

在回归指标上评估实值距离预测

作者分别在四个数据集(4.05_release, CASP14, CASP13,CAMEO),将MF-ProtDisMap与当前主流模型(OmegaFold、CopulaNet、TrRosetta、ESMFold、tFold)进行比对,并采用了常用的回归任务指标评估模型的稳定性。

在分类指标上评估接触预测

作者将生成的距离图转换为基于阈值的接触图,进一步评估MF-ProtDisMap的性能。文中与现有的残基接触预测方法(ESM-1b、SPOT-Contact-LM、TripletRes)、蛋白质语言模型(OmegaFold)、以及以完整MSA作为输入的CopulaNet进行了对比分析。在4.05_release数据集上,MF-ProtDisMap的ROC值为84.56%,PR为81.01%,F1为72.86%,Precision为86.25%,Recall为63.28%。相对比次优结果(PR为72.25%,F1为64.76%,Precision为83.44%,Recall为59.74%),MF-ProtDisMap有明显提升,并在多个数据集中表现出较强的竞争力。

全文总结与展望

本研究基于ESM与MSA Transformer两个大模型构建了MF-ProtDisMap 大模型框架,该框架不仅体现出多特征融合的优势,还展现出显著的计算资源优势,仅需单张 A100 GPU 即可完成训练,大幅降低了计算成本。在 CASP13、CASP14 和 CAMEO 等公共数据集上的的实验结果表明,MF-ProtDisMap 具备良好的泛化能力与稳定性。

本研究不仅展现了多特征融合与扩散模型在蛋白质结构预测中的应用潜力,更为后续相关研究提供了可借鉴的技术范式,为开发高效、计算量轻的深度学习模型提供了有益探索, 将助力作物改良精准设计、基于冷冻电镜刻画微观结构等领域发展。

研究团队与资助

来源:科学小侦探

相关推荐