基于图像与动态轨迹预训练的蛋白质-配体结合表征学习框架

B站影视 电影资讯 2025-10-30 09:30 1

摘要:在药物研发中,对蛋白质 - 配体结合 (PLB) 关系的预测起着关键作用。然而传统实验方法在检测 PLB 关系时需要消耗大量的人力与物力;现在虽然拥有很多基于人工智能方法实现 PLB 预测的模型,但其对 PLB 关系预测的精确度还不能满足药物开发的需求。

作者 | 论文团队

编辑 | ScienceAI

在药物研发中,对蛋白质 - 配体结合 (PLB) 关系的预测起着关键作用。然而传统实验方法在检测 PLB 关系时需要消耗大量的人力与物力;现在虽然拥有很多基于人工智能方法实现 PLB 预测的模型,但其对 PLB 关系预测的精确度还不能满足药物开发的需求。

为了提升 PLB 预测的效果,深圳职业技术大学、湖南大学等团队基于蛋白质与配体结合过程进行了建模,提出了一种基于图像的蛋白质 - 配体结合表征学习框架 ——ImagePLB。该框架实现了以下目标:

1. 采用多视角图像进行配体特征提取,有效避免了基于图结构的特征提取对原子数量的敏感性问题;

2. 实现了对配体图像 - 蛋白质口袋的结合表征提取,从而获得高质量的 PLB 表征;

3. 基于复合物的四维柔性动力学轨迹数据进行了预训练,进一步提升模型性能。

该研究的论文以《An Image-based Protein-Ligand Binding Representation Learning Framework via Multi-Level Flexible Dynamics Trajectory Pre-training》为题,已发表在《bioinformatics》期刊上。

论文地址:https://doi.org/10.1093/bioinformatics/btaf535

开源地址:https://github.com/HongxinXiang/ImagePLB

团队采用多视角图像作为配体特征,并基于蛋白质与配体的动态结合过程,提出了一种基于 Transformer 架构的绑定表征学习器 (BRL),以实现配体特征与结合位点中各氨基酸特征的融合提取,为 PLB 分析任务提供了高质量的蛋白质 - 配体融合特征。

同时,为了提升 PLB 分析任务的自监督学习能力,研究团队在相互作用过程中引入了时间概念,并通过四维柔性动力学轨迹实现了对 ImagePLB 的预训练任务。

图 1.(a) EGNN、SE (3)-Transformer 和 ResNet18 在 PDBbind-30 数据集训练集、验证集和测试集上的 1000 个训练周期性能表现。(b) EGNN 和 ResNet18 在不同最大原子长度下的 PDBbind-30 性能对比。(c) 提出的蛋白质 - 配体结合 (PLB) 表征学习框架 (ImagePLB)。

算法流程及模型结构

为了实现高质量 PLB 关系分析的任务,研究团队构建了 ImagePLB 框架以完成该任务,并且为 ImagePLB 框架设计了预训练策略与训练策略。

图 2.ImagePLB 总体架构

研究团队在使用多视角图像对配体特征进行提取的基础上,引入 Transformer 来对蛋白质 - 配体复合物动态结合过程进行模拟。同时,研究团队还设计了基于四维数据的后续轨迹预测任务 MLNTP 实现对 ImagePLB 的预训练并构建了基于指数函数的轨迹正则化机制,解决了由相邻轨迹过于相似引起的模型坍塌问题。

实验结果与性能提升

为了验证本文工作的有效性,研究团队使用 ResNET18 作为 LRL 的编码器,EGNN 作为 PRL 的编码器。在 MISATO (~20,000 个实验蛋白质 - 配体复合物的分子动力学模拟数据) 数据集上完成预训练之后,使用了 PDBbind-30、PDBbind-60、PDBbind-scaffold 以及 LEP 这四个常用基准数据集对模型性能进行验证。

图 3.PDBind 数据集实验结果

研究团队在 PDBind 数据集上为 ImagePLB 设置了 PLB 关系亲和力预测这一回归任务,ImagePLB 及其增强版本 ImagePLB-P 在多个指标上均优于现有模型,充分证明了该框架的有效性。

图 4.LEP 数据集实验结果

在 LEP 数据集上,研究团队为 ImagePLB 设计了 PLB 配体效能预测分类任务。如图 4 所示,ImagePLB 拥有极强的竞争力,其将为蛋白质 - 配体结合表征学习领域的研究范式提供新的理论基础。

图 5.PDBbind-30-nonoverlap 数据集实验结果

为进一步评估模型在蛋白质与配体对上的泛化能力,研究团队基于 PDBbind-30 数据集进一步加强了配体非重叠性约束以构建新的数据集 PDBbind-30-nonoverlap。图 5 结果显示,ImagePLB 和 ImagePLB-P 取得了最佳性能,表明了 ImagePLB 和 ImagePLB-P 框架具有较强泛化能力。

为了对各策略的有效性进行验证,研究团队针对 LRL 模块、预训练策略以及轨迹正则化策略设计了对应的消融实验,比较了:

1. 使用 ResNET18 实现基于图像的配体特征提取 / 使用 EGNN 实现基于结构的配体特征提取;

2. (使用 / 不使用) 预训练策略 (ImagePLB /ImagePLB-P);

3. (使用 / 不使用) 轨迹正则化策略 (w/o TR)。

图 6.LRL 模块消融实验结果

图 6 表明,当用图像替代配体结构数据时,在 PDBbind-30 和 PDBbind-60 数据集上的结果均表明了图像能有效增强模型捕捉配体 - 蛋白质相互作用的能力。

在对预训练策略进行分析时,研究团队结合图 3 与图 4 结果进行了分析。如图 3 和图 4 显示,ImagePLB-P 在几乎所有数据集上都优于 ImagePLB,充分证明了所提出的预训练策略的有效性。

图 7. 轨迹预测任务在未使用和使用轨迹正则化策略时的预训练损失对比

图 8.ImagePLB、ImagePLB-P 及不含轨迹正则化策略的 ImagePLB-P 对比

在验证轨迹正则化策略有效性时,研究团队首先对比了引入与不引入轨迹正则化的预训练损失。图 7 与图 8 所示结果充分证明了轨迹正则化的优势,能有效防止模型在理解蛋白质 - 配体结合的动态过程时所出现的模型坍塌问题。

总结与展望

在本研究中,研究团队明确了基于图的蛋白质 - 配体结合(PLB)分析面临两大挑战:一是难以获取高质量的蛋白质 - 配体结合表征,二是对最大原子数量敏感。为解决这些问题,团队提出了 ImagePLB 框架。ImagePLB 展示了将图像表示与动态轨迹预训练引入蛋白质 - 配体结合学习的新范式,克服了这两个挑战,向「智能药物设计基础模型」迈出了关键一步。

未来,研究团队期待将这一框架进一步扩展到多肽、抗体等大分子相互作用预测中,并融合结合动力学、毒性、代谢稳定性等多目标属性优化,从而推动 AI 在虚拟筛选与先导化合物优化领域真正走向实际药物研发。

来源:邓曼雁

相关推荐