7个数据集验证:scSiameseClu在无监督单细胞聚类任务中达到SOTA性能

B站影视 港台电影 2025-09-15 15:31 1

摘要:来自中国科学院、东北农业大学、澳门大学与吉林大学的研究团队联合提出了一种用于解读单细胞 RNA-seq 数据的新型孪生聚类框架 scSiameseClu,能够有效缓解表征坍塌问题,实现更清晰的细胞群体分类,为 scRNA-seq 数据的分析提供了强大的工具。

来自中国科学院、东北农业大学、澳门大学与吉林大学的研究团队联合提出了一种用于解读单细胞 RNA-seq 数据的新型孪生聚类框架 scSiameseClu,能够有效缓解表征坍塌问题,实现更清晰的细胞群体分类,为 scRNA-seq 数据的分析提供了强大的工具。

在生命科学的进程中,过去的重点常常放在「群体」水平。通过传统的普通转录组测序(Bulk RNA-Seq),我们能够得到群体细胞的平均基因表达,但这意味着一些稀有细胞的特征可能被掩盖。如今,研究者越来越希望能听见「单个」细胞的声音。

单细胞 RNA 测序(scRNA-seq)正是这样一种革命性技术,它能在细胞群体的喧嚣中,捕捉单个细胞的全面遗传信息,从而揭示隐藏的复杂特征。为了理解这些复杂的信息,需要进行一个关键环节——细胞聚类,根据基因表达的相似性将细胞归类,这一过程充满挑战。

scRNA-seq 数据存在高噪声、高稀疏性和高维度的特点,即使是目前最有效的图神经网络(GNNs)方法,也存在着「图构建不足」和「表征坍塌」的问题。正如下图所示,无论是基于深度学习的 scNAME,还是基于图神经网络的 scGNN,其逐渐趋同的表征结果,意味着均存在不同程度的表征坍塌。换句话说,依然缺少一种真正能够保留细胞差异性的聚类工具。

scNAME 和 scGNN 在同一数据集上细胞嵌入的相似性分布

为破解这一困境,来自中国科学院、东北农业大学、澳门大学与吉林大学的研究团队联合提出了一种用于解读单细胞 RNA-seq 数据的新型孪生聚类框架 scSiameseClu。它旨在捕捉并细化复杂的细胞间信息,同时在基因和细胞特征层面学习具有判别性和鲁棒性的表征。该框架集成了三个关键模块:双重增强、孪生融合、最优传输聚类,通过这种设计 scSiameseClu 够有效缓解表征坍塌问题,实现更清晰的细胞群体分类,为 scRNA-seq 数据的分析提供了强大的工具。

相关研究以「scSiameseClu: A Siamese Clustering Framework for Interpreting single-cell RNA Sequencing Data」为题入选 IJCAI 2025,预印本已发表于 arXiv。

研究亮点:

* scSiameseClu 可以从基因表达和细胞图中捕获复杂信息,以学习具有判别性和稳健性的细胞嵌入,改善聚类结果和下游任务;

* 引入了关键模块,构建了「增强-融合-聚类」的完整框架;

* scSiameseClu 在聚类及其他生物任务中的表现优于 SOTA 方法。

论文地址:https://go.hyper.ai/00BhP

覆盖多组织、多物种的 7 大真实数据集

为了全面评估 scSiameseClu 的性能,研究团队在 7 个真实的 scRNA-seq 数据集上进行了实验。过滤掉了少于 3 个细胞表达的基因,将其进行归一化、对数转换(logTPM),并根据预定义的平均值和离散度阈值选择高变异基因。这些预处理后的数据集由 3 个小鼠样本和 4 个人类样本组成,涵盖多种细胞类型(如:视网膜、肺、肝、肾、胰腺等),具有不同的基因数、细胞类型数和稀疏率,以下图片为所使用的数据集概况。

7 个 scRNA-seq 数据集概况

孪生聚类框架的 3 大模块

研究团队所提出的 scSiameseClu 是一种基于增强图自编码器的孪生聚类框架,该框架包涵 3 个模块:(i) 双重增强模块(Dual Augmentation Module);(ii) 孪生融合模块(Siamese Fusion Module); (iii) 用于自监督学习的最佳传输聚类策略(Optimal Transport Clustering)。

scSiameseClu 的架构概览

双重增强模块

本次的研究中双重增强模块为「基因表达增强+细胞图增强」,研究团队为提高模型对噪声的鲁棒性以及在不同数据集上的泛化能力,通过添加高斯噪声模拟基因表达的自然波动,实现基因层面的鲁棒性增强;通过采用边扰动和图扩散策略,分别生成增强的邻接矩阵,从不同但互补的角度处理细胞图,使模型能够捕捉细胞间多样的相互作用。

孪生融合模块

孪生融合模块(SFM)是 scSiameseClu 最核心的创新设计,采用整合「互相关细化」和「自适应信息融合」的策略。具体而言,前者是通过构建自编码器,分别处理蹭强后的基因表达矩阵和细胞图矩阵,在潜在空间中进行对齐与融合;后者通过嵌入聚合,自相关学习和动态重组来整合细胞关系,有效地滤除了冗余信息,并保留了潜在空间中的判别性特征,使其能够学习到鲁棒且有意义的表征,从而提升聚类性能同时避免表征坍塌。

此外,框架引入传播正则化项,以 Jensen-Shannon 散度约束原始嵌入与图传播后嵌入的一致性,在保持信息流动的同时缓解图神经网络过度平滑问题。

最优传输聚类

研究团队首先利用学生 t 分布(Student’s t-distribution)计算细胞与聚类中心的相似度,再通过 Sinkhorn 算法对预测分布进行对齐与修正,从而保证了聚类分布的平衡性并避免了坍塌问题。

scRNA-seq 框架卓越性能的多重验证

scRNA-seq 框架在聚类中所表现的卓越性能,是经过大量实验验证的结果。首先是与主流方法的全面对比,研究团队选取涉及传统聚类方法、基于深度神经网络的方法、基于图神经网络的聚类方法,共计 9 个目前最先进的基准模型作为对比,利用上述提到的 7 个真实数据集,采用了 3 种广泛认可的聚类指标:ACC(准确率)、NMI(归一化互信息)以及 ARI(调整兰德指数)进行评估。

结果显示 scSiameseClu 在这 3 项指标上均取得了明显优势,不仅整体分数更高,而且在不同数据集间表现稳定。如在人类肝细胞数据集的可视化对比上,可以清晰地看出,相较于其他基准模型 scSiameseClu 可以生成具有清晰边界、分离良好的簇,且都可以有效区分不同的细胞类型。

scSiameseClu与 4 种典型基准方法在人肝细胞上的可视化结果

其次在下游任务实验中,研究团队进行了细胞类型注释。在人体胰腺数据集中,他们利用 Seurat 工具鉴定差异表达基因和标记基因,并将 scSiameseClu 和其他方法识别的前 50 个标记基因与金标准进行比对,结果大多数簇的相似度超过 90%,能够准确对应到已知细胞类型,同时模型还能识别每个簇的标记基因。

进一步的细胞分类实验也表明,scSiameseClu 在准确率、F1 值等多个指标上均优于基线模型,验证了其在揭示细胞异质性和类型判别上的优势。

差异表达基因与黄金标准细胞类型的重叠情况

分类性能比较

最后是消融实验,研究团队在 Shekhar 小鼠视网膜细胞数据集上分别去掉了 scSiameseClu 的关键组件(包括SFM 损失、 ZINB 损失和 OTC 损失等)并与完整模型进行对比,以评估框架各模块的有效性。结果表明,每个部分都能显著提升性能,缺少任意一项都会导致效果下降。进一步拆解 SFM 模块,对比分别去掉细胞相关细化、潜在相关细化、传播正则化和重构损失时的模型表现均有所退化,而包括所有组件的 scSiameseClu 显示了显著的性能提高,表明其有效地整合了基因和细胞信息。

Shekhar小鼠视网膜细胞数据集的消融实验

迈向计算机生物学蓬勃发展的新时代

如果从计算机生物学的视角来看,scSiameseClu 借助计算机科学中的双重增强、孪生融合、最优传输聚类等方法,有效破解了生物学中长期存在的细胞异质性解析难题。可以说它仅是一种新型的聚类工具,也是计算方法和生命科学深度融合领域的众多新兴尝试之一。除此之外,随着人工智能算法和生物学的迅猛发展,新的成果也在不断涌现。

来自新加坡国立大学张阳教授团队提出了一种基于深度学习的高精度 RNA 结构预测框架——DRfold2,它集成了预训练的 RNA 复合语言模型(RCLM)和去噪结构模块,用于端到端的 RNA 结构预测。相关成果以「Ab initio RNA structure prediction with composite language model and denoised end-to-end learning」为题已发表于预印本平台 bioRxiv。

论文地址:https://www.biorxiv.org/content/10.1101/2025.03.05.641632v1

由美国贝勒医学院研究团队提出了一种基于深度学习的蛋白质翻译后修饰预测框架——DeepMVP,它整合了高质量 PTMAtlas 数据集,用于精准预测 PTM 位点及错义变异引起的改变。相关成果以「DeepMVP: deep learning models trained on high-quality data accurately predict PTM sites and variant-induced alterations」为题发表于 Nature Methods。

论文地址:https://www.nature.com/articles/s41592-025-02797-x

来源:乔布斯北京分斯

相关推荐