Bioinfomatics | 有效属性提示加速分子表征学习的进展

B站影视 港台电影 2025-09-12 20:01 1

摘要:今天给大家讲一篇2025年8月在Bioinfomatics上发表的一篇关于分子表征方面的文章。现有方法主要关注分子的拓扑或结构特征,常常忽略了分子中关键的物理化学属性。因此,作者提出了一种知识增强的多模态预训练框架(MolPrompt),它采用双编码器架构,通

今天给大家讲一篇2025年8月在Bioinfomatics上发表的一篇关于分子表征方面的文章。现有方法主要关注分子的拓扑或结构特征,常常忽略了分子中关键的物理化学属性。因此,作者提出了一种知识增强的多模态预训练框架(MolPrompt),它采用双编码器架构,通过将分子描述符转换为自然语言构建知识提示,并将其融入图编码器,引导模型学习能够感知分子结构的表征。该方法在分子属性预测、毒性预测、跨模态检索等多个任务中优于最先进的基准方法,并提升了分子表征的可解释性,为候选化合物筛选提供了更高效的方案。

早期的分子表征方法主要依靠领域专家的经验和知识,通过人工设计的规则从分子结构中提取特征,然而该方法捕获的信息有限,且难以发现潜在复杂规律。近年来,随着深度学习方法的兴起,研究重点转向从原始数据中自动学习分子表征,形成了以SMILES序列为基础的序列模型和以分子图结构为基础的图神经网络两类方法。这两类方法在分子性质预测、虚拟筛选和分子生成等任务中取得了一定成果,但仍局限于单一的模态数据。

随着预训练模型的不断出现,分子表征方法开始采用类似的预训练-微调范式。通过自监督学习策略在大规模无标注的化合物库上进行预训练来学习通用的分子表征,再经下游任务微调来提升特定任务的性能,有效缓解了生物医学领域中高质量标注数据稀缺的问题。当前阶段已将多模态表征学习引入药物研发领域,该方法主要将分子结构与化学文本描述的两个模态进行融合,如KV-PLM模型通过将SMILES字符串嵌入对应的文本描述,实现结构特征和语言特征的对齐,MolFM整合知识图谱的信息作为额外输入,实现结构、文本和关系知识空间的三种模态融合,提升了模型多种下游任务的性能。然而现有方法未能充分整合化学和物理性质等关键领域知识。此外,大多数方法将分子图和SMILES序列视为独立模态,该架构阻碍了拓扑特征和序列特征之间的交互,限制了模型学习细粒度跨模态之间关系的能力,从而影响了模型的鲁棒性和泛化能力。

作者提出了基于知识提示的多模态分子预训练方法MolPrompt,该方法包含四个主要部分:知识提示构建、分子图编码器、分子描述编码器以及跨模态对比学习模块。首先,提取十种常用的分子描述符用于创建基于文本的分子知识提示,这些提示包含了分子的化学和物理属性信息。接下来,使用不同的编码器分别提取分子图结构和分子描述的特征信息。这样,知识提示可以将特定的物理化学先验知识嵌入到图编码器中,促进拓扑特征与SMILES衍生属性信息的交互,从而捕获了内在的跨模态相关性,增强了其提取分子表征的能力。(图1)。

图1 MolPrompt的具体应用

3.1 分子性质预测任务性能评估

为了评估MolPrompt学习到的分子表征的有效性及可靠性,作者将其应用于分子性质预测任务。首先利用MolPrompt的分子图编码器为分子生成固定长度的特征表示,然后在分子图编码器之上附加一个预测头来预测分子是否具有目标属性。实验使用了MoleculeNet中的八个常用数据集,并且这些数据集包括生物活性、毒性、物理化学性质等多个领域,可用于在统一框架下比较不同分子表征方法的性能。

实验结果表明,MolPrompt在生物物理分类任务上表现优异,在六个数据集上取得了竞争性的优势,仅在HIV和BACE数据集上略逊于其他方法。可以发现MolPrompt在跨数据集场景中持续优于基准方法,表现出其较优的泛化能力(图2)。

图2 分子性质预测任务性能评估

3.2 活性悬崖现象分析

活性悬崖揭示了分子结构微小改变导致生物活性差异较大的关键位点。理解这些变化规律能帮助药物化学家合理设计分子。为了全面展示MolPrompt的预测活性悬崖的能力,作者从hERG测试集中选择了一对结构相似但属性相反的化合物进行研究。首先,利用注意力图来可视化和理解其决策过程。尽管两个分子的结构差异很小,但Mol A和Mol B的注意力权重分布显示出明显的差异,且两个分子之间细微的结构差异恰好集中在注意力图差异最明显的区域。这表明 MolPrompt准确地将其定位到具体的原子或功能团上,从而识别出导致活性急剧变化的“关键子结构”。 这也进一步证明了MolPrompt学习关键的全局分子表示的能力,从而帮助药化专家更合理地设计或优化先导化合物(图3)。

图3 活性悬崖预测任务分析结果

3.3 发现潜在FGFR1抑制剂

为了验证MolPrompt在药物发现中的实际应用价值,作者构建了一个针对FGFR1蛋白的分子活性预测任务,分别从现有专利和研究文献中收集了12461个具有实验确定活性的分子,这些分子的活性以pIC50值进行量化。为确保评估的严谨性,作者采用骨架分割方法将数据集按8:1:1的比例划分为训练、验证和测试集,并通过SMILES和InChIKey双重去重操作确保测试集与预训练数据集无重叠,有效防止了数据泄露的问题。实验结果表明,MolPrompt在预测FGFR1分子活性的任务中表现出色,其相关性等指标均显著优于包括MoMu、MoleculeSTM以及GEM等在内的多个基线方法。这一结果不仅证明了MolPrompt在分子性质预测方面的优越性能,更重要的是展示了其作为药物发现工具的实用价值,能够有效识别和预测靶向抗癌蛋白FGFR1的潜在抑制剂,为抗肿瘤药物研发提供了有效的帮助(图4)。

图4 发现潜在FGFR1抑制剂的过程

传统的分子表征方法往往无法有效整合分子图的拓扑结构和物理化学等属性之间的交互信息,并且缺乏将领域特定知识融入分子表征的能力。因此,作者提出了一种创新的多模态分子预训练框架(MolPrompt)。首先,将物理化学描述符(如原子电荷等) 转化为自然语言形式的提示融入模型训练过程中,从而促进了结构基础和语义丰富的分子表征学习。这种设计显著提高了模型捕捉跨模态依赖的能力,并在分子属性预测、分子-文本跨模态等任务中取得了较优的性能,并利用MolPrompt发现靶向抗癌蛋白FGFR1的潜在抑制剂。该方法加速了先导化合物的发现过程,还显著提高了药物设计的成功率,展示了其在药物发现中的实际应用价值。

参考文献

Li Y, Liu C, Gao X, et al. MolPrompt: Improving multi-modal molecular pre-training with knowledge prompts[J]. Bioinformatics, 2025: btaf466.

来源:大伟聊科学

相关推荐