摘要:单细胞测序技术近年来迅猛发展,为揭示细胞类型的多样性、细胞状态的动态变化以及基因调控机制提供了前所未有的机遇。除常用的单细胞转录组测序( scRNA -seq)外,还包括单细胞染色质可及性测序( scATAC -seq),以及可同时测量转录组和染色质可及性的单
单细胞测序技术近年来迅猛发展,为揭示细胞类型的多样性、细胞状态的动态变化以及基因调控机制提供了前所未有的机遇。除常用的单细胞转录组测序( scRNA -seq)外,还包括单细胞染色质可及性测序( scATAC -seq),以及可同时测量转录组和染色质可及性的单细胞多组学测序 ( scMultiome ),从而在多个模态上以前所未有的单细胞分辨率解析细胞异质性。然而,这些技术获得的数据普遍高度稀疏,主要由于单细胞测序深度有限,以及反转录效率不完美与非线性扩增导致高表达基因“挤占”测序容量,从而使低表达基因难以被检测到。为缓解数据的稀疏性与噪声,研究者提出了 元细胞(metacell) 概念:将表达模式相似的细胞聚合为一个元细胞作为代表,并以其成员细胞的基因(或特征)表达均值作为元细胞的表达值,以增强信号并降低噪声。但现有的元细胞构建方法常常产生差异较大的划分结果,且高度依赖超参数设置(尤其是元细胞的平均大小)。这种缺乏一致性的情况使用户难以判断哪一种构建结果更为可信,以及由此得到的元细胞表达谱在多大程度上能够保留真实的生物学信号,从而削弱了下游分析的稳健性,也限制了元细胞作为数据预处理环节在不同任务和多组学模态中的广泛应用。
2025年9月29日,加州大学洛杉矶分校(UCLA)和弗雷德·哈钦森癌症中心(Fred Hutchinson Cancer Center)的李婧翌课题组在 Nature Communications 杂志上发表了题为
mcRigor: a statistical method to enhance the rigor of metacell partitioning in single-cell data analysis的论文(图1)该研究为“元细胞”给出了明确的统计学定义:基于一个两层模型来刻画单细胞的基因表达——上层描述生物学异质性的真实表达分布,下层描述由真实表达生成测量值的观测分布。基于该定义,该研究提出了mcRigor 方法,用于识别给定划分中的可疑元细胞(dubious metacell),同时在多种元细胞构建方案之间自动选择最佳方法及其最优超参数。mcRigor 不仅能识别并剔除可疑元细胞(其拓展版本 mcRigor two-step 可将可疑元细胞拆解为单细胞并重新组装为更小且更可靠的元细胞),从而提升基因共表达、增强子—基因调控等下游分析的可靠性;还能针对给定数据集自动选出表现最佳的元细胞划分。mcRigor 具备可与各类元细胞构建方法灵活适配的优势,适用于单细胞转录组、染色质可及性以及多组学数据。除此之外,mcRigor 还提供统一的评估标准,用于基准化不同方法的表现,为研究者选择合适的方法提供可靠参考。首先 ,作者阐述了 mcRigor 检测可疑元细胞的机制:通过基于基因(或特征)相关的统计量 mcDiv 量化 每个元 细胞的内部异质性(即基因间相关系数对独立性的偏离;因为若单细胞具有相同的真实表达、细胞间差异仅由观测分布决定,则基因应近似独立),并创新性地设计用 双重置换(double permutation) 构造 mcDiv 的 零分布(null distribution ),据此 判定各元细胞 是否可疑。在半模拟数据和真实 PBMC 数据中, mcRigor 均能准确区分可信与可疑元细胞。此外,作者还在多种数据类型和下游分析任务中展示了 mcRigor 清除伪信号、提升结果可信度的作用:在细胞系数据中,去除可疑元细胞后细胞周期标记基因的信噪比显著提升;在 COVID-19 与健康对照的比较中, mcRigor 有效剔除了由可疑元细胞导致的基因伪相关,并揭示了适应性免疫应答模块更强的基因共表达;在多组学分析场景下, mcRigor 提高了增强子—基因关联的可检出性,滤除 仅具弱证据 的 疑似假 阳性,同时保留与单细胞层面一致的真实信号。
在论文后半部分,作者介绍了 mcRigor 评估元细胞构建方法并优化超参数的机制:基于“元细胞可信度—数据稀疏度”的权衡,为每组元细胞划分计算综合评分,从而在候选的“方法 × 超参数”配置中自动择优,实现从经验式“选方法、调参数”到数据驱动的自动化决策。作者进一步在多种下游任务中展示了这一功能的价值:其一, mcRigor 优化后的元细胞 零比例 与 smRNA -FISH(金标准)测得的 零比例 高度一致,说明该优化可有效区分技术性零值与生物学零值;其二,在差异表达分析中,基于 mcRigor 优化元细胞得到的结果更接近 bulk 数据结论,因而更为可信;其三,在时间序列数据中, mcRigor 优化后的元细胞提升了细胞轨迹的分辨率,揭示出更清晰且与实证资料更一致的基因表达动态模式。
博士后刘盼是本文的第一作者,李婧翌教授是本文的通讯作者。mcRigor的R包和在线教程可参考: https://jsb-ucla.github.io/mcRigor/
制版人: 十一
学术合作组织
(*排名不分先后)
战略合作伙伴
【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。
BioArt
Med
Plants
人才招聘
近期直播推荐
来源:马马看科学事