摘要:近日 , 广州国家实验室李亦学、刘俊伟与汤臣倍健营养健康研究院合作开发了一种新型深度学习多组学模型scTFBridge。该模型创新性地实现了对不同多组学数据中共享信息与特有信息的“解耦”,有效解决了长期困扰该领域的“Modality gap”问题。scTFBr
近日 , 广州国家实验室李亦学、刘俊伟与汤臣倍健营养健康研究院合作开发了一种新型深度学习多组学模型scTFBridge。该模型创新性地实现了对不同多组学数据中共享信息与特有信息的“解耦”,有效解决了长期困扰该领域的“Modality gap”问题。scTFBridge 能够以单细胞精度整合多组学数据并推断基因调控网络,为解析癌症、自身免疫性疾病等复杂疾病的发生发展机制提供了强有力的工具。相关研究成果已发表于 Nature Communications :
scTFBridge: a disentangled deep generative model informed by TF-motif binding for gene regulation inference in single-cell multi-omics基因的正常表达是维持细胞功能和生命活动的基础,这一过程受到 由 转录因子 (TFs) 和调控元件 (REs) 所构成的 复杂基因调控网络 (GRNs) 的精确控制。 单细胞多组学技术的发展使得在单个细胞中同时检测基因表达与染色质可及性成为可能,为精确推断 GRN 提供了重要机遇。然而, 如何有效整合这些异构数据,始终是该领域面临的关键挑战 。 这一挑战的核心在于 “Modality gap” ,即由不同组学数据(如 转录组 与表观基因组)内在异质性所导致的技术障碍。当前主流的多组学整合模型多采用编码器 - 解码器架构,旨在将不同模态的数据映 射至一个共享的隐空间。然而,该架构在训练过程中面临对抗性目标:一方面,模型需保留各模态的特有信息以实现对原始数据的高质量重构;另一方面,又必须推动不同模态在 隐空间 中对齐以实现有效融合。这种内在的设计矛盾造成训练过程中的目标冲突,从而限制了模型性能,使其难以同时实现准确的多模态整合与可靠的生物学特征提取。
图一 scTFBridge 模型示意图
为解决上述难题,研究团队基于 “ 分而治之,多重解耦 ” 的策略,开发了名为 scTFBridge 的新型深度学习可解释生成模型。该模型创新性地运用互信息理论,在 隐空间 中将来自转录组( RNA-seq )和表观基因组( ATAC-seq )的数据分解为 “ 共享信息 ” 与 “ 特有信息 ” 两部分,从而有效消除了 “Modality gap” 所带来的干扰。 为进一步解耦 隐 空间中共 享部分 的复杂特征, scTFBridge 引入了 “TF-Motif” 这一生物学先验知识,用以约束 ATAC-seq 重构过程 中共享隐变量 与调控元件( REs )之间的连接关系。这一设计不仅赋予共享 隐 变量以明确的生物学意 义 - 即对应特定转录因子的调控活性,也显著提升了模型预测的准确性与结果的可解释性。 正如其名称所喻, scTFBridge 以 TF 共享 隐 变量构建起一座桥梁,既连通了不同类型的组学数据,也衔接了数据驱动分析与生物学知识,为我们更清晰地解析细胞内部的基因调控蓝图提供了有力工具。
为验证 scTFBridge 的性能,研究团队在多个公开数据集上进行了系统评估,结果表明该模型在多个任务层面均表现优异。具体而言, scTFBridge 能够精准识别细胞类型 特异 的核心转录因子。在 BMMC 数据集上,模型成功识别出经典树突状细胞( cDC )中的 ESR1 、 CD4 初始 T 细胞中的 TCF7 以及 B 细胞中的 SOX4 。 在顺式调控网络的推断任务中,研究团队以 eQTL 和 pcHi-C 数据作为金标准进行验证。结果显示,在不同细胞类型以及不同基因组距离分组下, scTFBridge 在预测调控元件 - 基因互 作关系 上的 AUC 与 AUPR ratio 均一致优于 SCENIC+ 等基线方法。在反式调控网络推断方面,以 ChIP-seq 数据作为验证标准, scTFBridge 同样展现出卓越性能。例如,在 CD14 + 单核细胞中针对 STAT1 转录因子的预测任务上 , 其 AUC 值达到 0.693 , AUPR ratio 达到 2.221 ,表现显著优于多数现有模型。
研究 团队 进一步将 scTFBridge 用于 疾病机制 解析, 并在类风湿性关节炎( RA )和肺癌研究中展现出强大潜力。 在类风湿性关节炎分析中,通过对患者免疫细胞数据进行建模, scTFBridge 识别出的 “ 共享 ” 调控元件不仅与具有较强基因调控活性的 “ 动态 ” 元件显著重叠,更重要的是,遗传度富集分析证实,这些元件能够更高效地富集与类风湿性关节炎相关的致病遗传变异,凸显了其在识别疾病相关功能序列方面的优势。 在肺癌易感性分析中, scTFBridge 成功验证了已知肺癌候选因果变异( CCV )与相应靶基因之间的调控关系。尤为突出的是,对于关键靶基因 NRG1 ,模型精准定位到一个包含因果变异的远端调控元件( chr8: 32552186-32552663 ),并证实该元件在特定细胞类型中具有最高的调控潜力,清晰揭示了遗传风险变异通过细胞特异性调控机制影响肺癌易感性的分子路径。
综上所述,scTFBridge模型通过其创新的“多重解耦”设计,不仅有效克服了单细胞多组学整合中的“Modality gap”关键挑战,也为在精准医学背景下深入解析复杂疾病机制提供了强有力的计算工具。该模型的应用有望系统揭示癌症、自身免疫性疾病等复杂病理的发生发展规律,最终为靶向干预与精准诊疗策略的开发提供新的理论基础与实践路径。
广州 国家 实验室李亦学研究员,刘俊伟副研究员,汤臣 倍 健营养健康研究院贺瑞坤为本研究的共同通讯作者 。 中国科学院大学杭州高等研究院博士生、广州国家实验室实习生王烽傲 为 本文章 第一作者,中山大学智能工程学院 - 广州实验室联培博士生 伊晨昕、陈佳俊为 本文章 共同作者。 scTFBridge 作为一个开源的计算工具,其代码和 使用流程 已公开发布在 GitHub ( https://github.com/FengAoWang/scTFBridge ) 。
文章链接:https://www.nature.com/articles/s41467-025-64227-y
制版人: 十一
学术合作组织
战略合作伙伴
【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。
BioArt
Med
Plants
人才招聘
近期直播推荐
来源:酷姐科学探索