基于结构的药物设计与深度分层生成模型

B站影视 港台电影 2025-04-10 19:54 1

摘要:近年来,随着高分辨率蛋白质晶体结构数据的急剧增长以及可获得或可合成类药物分子库的扩展,传统的虚拟配体筛选(VLS)方法已难以应对庞大的药物化学空间。此外,传统方法在先导化合物的优化过程中往往依赖专家直觉和大量人工调整,难以实现高效自动化。近年来深度生成模型在药

近年来,随着高分辨率蛋白质晶体结构数据的急剧增长以及可获得或可合成类药物分子库的扩展,传统的虚拟配体筛选(VLS)方法已难以应对庞大的药物化学空间。此外,传统方法在先导化合物的优化过程中往往依赖专家直觉和大量人工调整,难以实现高效自动化。近年来深度生成模型在药物设计领域得到了迅速发展,利用大数据学习分子内及分子间相互作用的规律,从而在 de novo 分子生成、优化和药物-受体相互作用建模等任务上取得了显著进展。

在此背景下,Weller 和 Rohs 提出了 DrugHIVE,一种基于深层次层级变分自编码器(HVAE)的药物设计方法。该方法不仅能够学习分子结构的多尺度空间特性,而且能针对蛋白质受体条件生成高亲和力、高药物相似性的候选分子,极大地提升虚拟筛选效率和先导化合物优化的自动化水平。

图1. DrugHIVE 概览

(a) 模型的输入数据可以来自实验结构、预测结构或类药物分子库。该模型在实验结构和类药物分子数据上进行训练,并且生成过程可使用任意一种数据类型。
(b) DrugHIVE 的先验具有分层结构,能够表示不同的空间尺度。
(c) 分子信息以多通道原子密度网格的形式作为模型输入,其中配体网格输入到配体编码器,受体网格输入到蛋白编码器。原子占据(深灰色密度)以全分辨率表示,而原子类型通道(彩色密度)在输入网络前被下采样2倍。
(d) DrugHIVE 模型由配体编码器、蛋白编码器和配体解码器组成。蛋白编码器的信息会传递给配体编码器和解码器。
(e) 模型输出原子占据(全分辨率)和原子类型网格(半分辨率),然后用分子结构进行拟合。首先,将原子拟合到原子占据密度上,并利用上采样的原子类型密度为原子分配类型。接着,应用键拟合算法连接原子。最后,利用力场优化对原子位置和键长进行松弛处理。
(f) 原子属性(如原子序数【元素】、氢键受体(HBA)、氢键供体(HBD)和芳香性)通过不同的网格通道进行表示。
(g) 原子占据通过单一全分辨率通道表示,而原子属性通过半分辨率通道表示,从而降低了内存消耗并减少了网格的稀疏性。

2.1 层级变分自编码器架构

DrugHIVE 的核心在于采用层级变分自编码器结构,不同于传统单隐层 VAE,其设计中包含多个隐层变量,每一层编码都保留了不同空间尺度的信息。较高层次捕捉分子整体几何形状,而较低层次则编码原子属性及局部结构特征。这样的层次结构更符合分子系统固有的多尺度空间组织特性,使得生成模型在保留原始分子特征的同时,还具备更精细的局部控制能力。

2.2 分子密度网格与原子编码

文章中,分子结构首先被映射为多通道密度网格,每个原子由一个伪高斯分布表示。作者提出了基于质心(COM)的编码方法,将原子位置转化为网格上的连续密度表示,再通过高斯卷积得到平滑的密度图。这种表示方法既保留了精确的位置信息,又降低了数据稀疏性,便于深度网络处理。

,将原子位置转化为网格上的连续密度表示,再通过高斯卷积得到平滑的密度图。这种表示方法既保留了精确的位置信息,又降低了数据稀疏性,便于深度网络处理。

2.3 编码器与解码器设计

DrugHIVE 模型中,编码器分为两条支路:一条处理全分辨率的原子占据信息,另一条则处理下采样后的原子属性信息。解码器在重构过程中,则首先利用原子拟合算法从预测的密度图中提取原子坐标,然后依据上采样后的特征图赋予原子对应的元素信息,最后通过键拟合算法重构分子结构。整个生成过程还引入了 steric clash 惩罚项,确保生成的分子结构在立体化学上合理。

2.4 采样策略与多目标优化

图2. 先验-后验采样与多目标进化优化

(a) 针对结合于人类含溴结构域蛋白4受体(PDB ID 5D3H)的配体(PDB化学编号57G)进行优化。
  (左)箱线图展示了每个优化周期中生成分子的分布,每个箱线图代表400个分子;
  (右)显示了优化过程中得到的最佳分子及其报告的属性,绿色文本表示成功改进。
(b) 优化过程的初始分子。
(c) 以降低方向对疏水性(ALogP)进行优化,起始点为之前(上升方向)疏水性优化中得到的最佳分子。
(d) 图表展示了在不同先验-后验插值值下,从100个不同PDB结构(测试集)生成的分子,其平均多样性及与参考分子的相似度。其中,测试集中参考配体的平均多样性(蓝色虚线)和平均相似度(黑色虚线)均有标示。
(e) DrugHIVE生成分子的虚拟筛选效率与ZINC类药物子集中随机样本的对比。
(f) 先验-后验采样过程示意图。
(g) 生成具有优化选择性(即对人类共济失调毛细血管扩张突变(ATM)激酶具有高亲和性,而对人类液泡蛋白排序(Vps34)激酶具有低亲和性)的分子。
  (左)叠合对齐的ATM激酶(PDB ID 7NI5)与Vps34激酶(PDB ID 4UWH)结构;
  (右上)显示优化过程中得到的最佳分子及其报告的属性;
  (右下)箱线图展示了每个优化周期中生成分子的选择性分布(ΔSel = VinaATM − VinaVps34)。

DrugHIVE 的生成策略主要包括三种模式:

先验采样(Prior Sampling): 从预先定义的高斯先验中随机采样,然后结合蛋白受体信息生成全新分子;

后验采样(Posterior Sampling): 将已知配体编码后进行重采样,以重构或稍加变异生成新分子;

先验-后验插值采样: 在隐空间中对初始分子编码与随机先验编码进行插值,实现对分子局部结构的精细控制,进而完成子结构修改、片段扩展、连接器设计以及分子模式替换等任务。

此外,模型还引入了温度因子控制隐变量的方差,通过多尺度调控,使得不同空间尺度的结构特征能被独立调整。为实现多目标(如结合亲和性、药物相似性、合成可行性及疏水性)优化,作者结合进化算法在隐空间内进行搜索。每个分子的“基因”由其隐编码表示,利用群体迭代和变异操作,筛选出在各目标属性上具有最优表现的分子。

2.5 力场优化与虚拟筛选

生成的分子密度图在重构为离散分子结构后,还需经过力场优化以消除几何畸变。文章采用 MMFF94 力场对生成结构进行能量最小化,然后利用 QuickVina2 对分子进行虚拟对接,预测其与蛋白受体的结合亲和力。为了消除分子大小对对接分数的影响,作者对分子尺寸进行分组并采用自助采样方法计算归一化 Vina 分数,保证各方法间的比较具有公平性。

3.1 新分子生成与筛选效率

在实验中,DrugHIVE 针对来自 PDBbind 数据库的 100 个不同蛋白受体进行了大规模生成实验。结果表明,与传统方法(如 LiGAN、DiffSBDD 和 Pocket2Mol)以及随机抽样的 ZINC 分子库相比,DrugHIVE 生成的分子在预测结合亲和力和药物相似性(QED 分数)上均有显著提升。特别是在分子尺寸归一化处理后,其生成分子中约有 8.7% 的候选分子表现出与晶体配体相当或更优的结合亲和力,而随机抽样仅为 3.9%,显示出明显的虚拟筛选效率优势。

3.2 多目标优化案例

作者利用进化算法在隐空间内进行多目标优化,展示了针对同一配体进行结合亲和力、药物相似性、合成可行性以及疏水性等多个属性同时提升的效果。例如,对于 BRD4 受体上的一个先导分子,经过优化后,预测结合亲和力提升了 51%,QED 分数由 0.49 上升至 0.94,合成可行性指标(SA 分数)也显著改善;而在 ALogP 的优化实验中,通过先上调后下调,成功实现了分子疏水性从正值到负值的转变,体现出模型对分子理化性质调控的灵活性。

3.3 空间采样在局部修改中的应用

利用空间先验-后验插值采样,DrugHIVE 可对分子的局部区域进行修改,实现常见的药物设计任务:

连接部分设计(Linker Design): 在片段筛选实验中,将两个低亲和力片段自动连接为高亲和力分子;

片段生长(Fragment Growing): 对已有配体进行局部扩展,显著提升预测结合亲和力;

骨架跳跃(Scaffold Hopping): 在保持分子其他部分不变的前提下,针对特定子结构进行优化,改善分子药物属性;

模式替换(Pattern Replacement): 对存在 PAINS 等干扰模式的分子进行替换,有效规避假阳性筛选问题。

这些局部修改策略均依托于模型在隐空间中保留的空间上下文信息,保证了修改区域与整体结构的协调性,同时提供了较高的操作自由度和精细控制能力。

3.4 基于预测结构的药物设计

由于超过 80% 的人类蛋白质尚无实验解析结构,AlphaFold2 的高置信度结构预测为药物设计提供了新的可能性。作者在实验中选取了一批既有晶体结构又有 AlphaFold 预测结构的受体,对比生成的分子在两种受体模型下的对接表现,结果显示两者具有高度相关性(相关系数 R 分别为 0.8 和 0.96)。这表明 DrugHIVE 不仅能够利用高分辨率晶体结构进行设计,也能在 AlphaFold 预测结构上获得可靠的结果,从而拓展了模型在未解决蛋白质靶点上的应用范围。

DrugHIVE 通过构建深层次的层级变分自编码器架构,成功地将分子的多尺度空间信息嵌入隐空间,并基于此实现了分子生成、局部修改及多目标优化。这一方法在以下几个方面具有重要意义:

自然表达多尺度结构: 传统的生成模型往往忽略分子内固有的空间层次关系,而 DrugHIVE 通过多级隐表示能更准确地捕捉整体结构与局部细节之间的关系,提高了生成分子的质量和合理性。

高效自动化设计: 通过先验采样、后验采样以及空间插值技术,该模型可以自动完成 de novo 分子生成、片段连接、骨架跳跃和子结构修改等任务,大大减少了人工干预,缩短了药物设计周期。

虚拟筛选与优化优势: 实验结果表明,DrugHIVE 生成分子在虚拟对接筛选中具有更高的效率,其优化后的候选分子在结合亲和力及药物相似性等指标上明显优于现有方法,为后续的实验验证和先导化合物筛选提供了有力支持。

对预测结构的适应性: 借助 AlphaFold2 提供的高置信度蛋白结构,DrugHIVE 有望拓展至未解析蛋白质靶点的药物设计中,这对于覆盖人类蛋白质组中尚未解决的靶点具有重要意义。

尽管 DrugHIVE 在多个任务上表现出色,但文章也指出其局限性。当前模型受限于输入密度网格的尺寸,难以处理较大分子;同时,生成分子的合成可行性仍有待进一步提升。未来工作可借助合成子单元生成、深度学习 retrosynthesis 方法及更高效的网格表示方案来弥补这些不足。

总体而言,DrugHIVE 展示了深度生成模型在结构基础药物设计中的巨大潜力,通过整合多尺度隐空间表示、灵活的采样策略和进化优化技术,不仅能够快速探索巨大的药物化学空间,还为药物设计中的各项任务提供了自动化解决方案。随着计算能力的提升及更多实验数据的积累,类似的生成模型将有望在降低药物研发成本、加速先导化合物发现方面发挥更大作用,从而推动早期药物开发向自动化、高效化方向迈进。

参考资料:Weller, J. A., & Rohs, R. (2024). Structure-based drug design with a deep hierarchical generative model. Journal of Chemical Information and Modeling, 64(16), 6450-6463.

来源:科学新黑洞

相关推荐