摘要:今天给大家讲一篇2024年10月在Briefings in Bioinformatics上发表的一篇关于分子生成的文章。传统方法主要通过对实验结果来筛选满足特定生物活性的分子,导致其适用性受限。因此作者提出了GexMolGen方法,仅使用基因表达谱来生成苗头化
今天给大家讲一篇2024年10月在Briefings in Bioinformatics上发表的一篇关于分子生成的文章。传统方法主要通过对实验结果来筛选满足特定生物活性的分子,导致其适用性受限。因此作者提出了GexMolGen方法,仅使用基因表达谱来生成苗头化合物。它采用“先对齐后生成”的策略,在映射空间中对齐基因与分子的表征。此外,还引入预训练的单细胞语言模型来确保生成分子的有效性。实验结果表明,无论输入何种转录组数据,均能生成与已知参考分子相似度高的化合物。这种跨模态的生成策略为基于基因表达数据的药物发现提供了新的见解,提高了筛选满足特定生物活性分子的效率。
01
引言
为了解决药物发现过程中靶标识别和化合物筛选的难题,生物学家们试图通过观察基因表达的变化来预测哪些化合物可能对特定的疾病有治疗作用,从而指导药物的开发和筛选过程。然而传统的方法如CMap通过比较基因表达签名来筛选分子,但在搜索空间上受限,往往无法涵盖广泛的化学空间,且在对特定数据的预测能力上存在局限性。现有的一些计算方法如WGAN和Gex2SGen等方法通过挖掘基因表达特征来生成满足特定生物活性的分子,从而在一定程度上提高了分子设计的灵活性和搜索效率。此外,语言模型如scBERT 可以用于单细胞数据的聚类、分类、细胞轨迹推断等任务,有助于生物学家更好地理解细胞异质性和发育过程。这些方法不仅扩大了候选药物的搜索空间,而且在先导化合物优化方面展现出较大的潜力。
02
GexMolGen的设计流程
作者提出一种通用框架GexMolGen,旨在通过输入特定的基因表达来生成先导化合物,首先对分子生成器进行预训练,并用其编码器来生成分子表征,与其类似,再用scGPT分别编码扰动前后的基因表达,并计算基因嵌入空间内的差异作为基因相关的特征(图1B)。接着微调编码器,运用对比学习方法将基因表达特征和分子投射到一个统一的空间中,通过分层基因-分子匹配方法微调编码器,并使用对比学习将基因表达签名与分子投射到统一空间(图1C)。最后,为了优化生成的多样性,在连续的分子标记被输入到分子解码器后基于束搜索策略来搜索更广阔的化学空间(图1E)。该方法是首次将大语言模型应用于跨模态分子生成的任务中。
图1 GexMolGen模型架构
03
实验结果
3.1 基于微扰谱来生成苗头化合物
为了评估GexMolGen模型的生成分子的质量,作者将它们与其他三种传统方法进行比较,一种是在训练集中根据基因表达签名之间的余弦相似度搜索分子,另一种是根据欧几里得距离搜索分子及hierVAE模型。由实验结果可以发现,GexMolGen模型在三个相似度衡量方式上均显著优于其他三种基准方法,表明其生成的分子在指纹和子结构上与参考分子非常相似。此外,基于欧几里得距离搜索方法始终不如基于余弦相似度的方法,有可能是因为随着维数的增加,欧几里德距离对基因表达特征的差异并不敏感的原因(图2)。
图2 基于微扰谱生成的分子的质量评估
3.2 基于敲降谱来生成苗头化合物
为了测试GexMolGen模型的泛化能力,作者根据敲降谱来生成相应的苗头化合物。首先,先用各个基准方法为每个基因生成100个候选分子,并记录它们与最相似的已知抑制剂之间的相似度分数。结果显示,GexMolGen不仅生成与已知抑制剂较为相似的分子,还成功重构出已知抑制剂的骨架结构,且平均相似度分数和多样性均优于其他基准方法。此外,与其他深度学习方法相比,由于利用了基因表达信息,GexMolGen在有相似度约束的前提下,也保证了多样性及有效性,在该任务上有着竞争性的优势(图3)。
图3 基于敲降谱生成的分子的质量评估
3.3 基于跨模态相似性筛选分子
GexMolGen模型能够仅通过基因表达谱来筛选分子,这为药物发现和生物标志物识别提供了新的思路。为了进一步评估GexMolGen的有效性,作者基于跨模态相似性来筛选候选化合物。首先,先获取参考数据集中化合物的表征及基因的表征,并通过计算二者的点积来对齐分数,从而找到与每个基因最匹配的化合物。与传统方法不同,如CMap仅计算单一模态内的相似性,而该方法则考虑跨模态间的相似性,即考虑了基因表达特征与分子结构之间的相关性。
图4A展示了整个筛选流程,而图4B显示了从同一分子数据集中筛选出的一些示例分子,上述结果表明利用跨模态相似性筛选出的化合物与已知抑制剂的结构相似性要远高于基于传统方法筛选出的分子。
图4 基于跨模态相似性筛选后的分子示例
04
结论
作者提出了一种名为GexMolGen的分子生成方法,可以基于基因表达谱生成苗头化合物。该方法以单细胞大语言模型scGPT来提取基因层面的特征,并结合hierVAE来提取分子层面的特征信息,通过对比学习方法来生成与特定基因匹配的化合物。实验结果表明相较于传统搜索方法,GexMolGen在生成分子质量具有竞争性的优势,且具有较优的泛化性能。然而,该方法在基因和分子的表征方面仍存在一定的局限性,未来可引入不同的表征提取的方法来提升其性能,从而加速筛选满足特定生物活性的新颖结构的分子,大幅缩短从靶标识别到生成苗头化合物的早期药物发现阶段的时间。
来源:闻闻说科学