摘要:近年来,单细胞转座酶可及染色质测序技术(scATAC-seq)以前所未有的分辨率揭示全基因组范围内的染色质开放状态,为理解基因调控机制提供了深刻见解。然而,在对多样本进行整合分析时,样本间存在的技术性差异,如“批次效应”,会严重干扰真实的生物学信号。尽管已有一
近年来,单细胞转座酶可及染色质测序技术(scATAC-seq)以前所未有的分辨率揭示全基因组范围内的染色质开放状态,为理解基因调控机制提供了深刻见解。然而,在对多样本进行整合分析时,样本间存在的技术性差异,如“批次效应”,会严重干扰真实的生物学信号。尽管已有一些数据整合工具,但它们或非专为scATAC-seq数据设计,效果不佳;或在校正过程中破坏了细胞原有的生物学异质性,且仅能在低维空间中进行校正,导致原始高维信息的丢失。
2025年8月27日,南开大学数学科学学院陈盛泉教授团队在Nature Machine Intelligence发表题为“Rigorous integration of single-cell ATAC-seq data using regularized barycentric mapping”的研究论文,提出了一个名为Fountain的深度学习框架,其核心创新在于使用了正则化重心映射解决批次校正问题。该方法基于最优传输理论,在对齐不同批次数据分布的同时,融入了数据自身的几何结构信息(图1)。这一设计使得Fountain能够在有效去除批次效应的同时,保护数据内在的生物学异质性。Fountain还支持在线整合,即模型训练一次后,便可随时将新的数据批次投影到已整合的空间中,无需重新训练,极大地提升了大规模数据整合的效率。此外,不同于多数方法只能输出低维表示,Fountain能够生成经过批次校正且增强后的、与原始数据维度一致的scATAC-seq数据,极大地便利了基于原始维度信息的多种下游分析。
图1 Fountain的模型框架
研究团队在七个涵盖不同物种、测序技术和复杂度的真实scATAC-seq数据集上,将Fountain与六种当前主流的整合方法进行了全面的性能比较。结果表明,Fountain在聚类准确性、批次校正效果和避免过度校正等多个指标上表现出最优的综合性能。同时,通过Fountain重建的原始维度数据能够显著提升下游生物学分析的质量。例如,Fountain可以帮助研究者更清晰地识别差异可及性峰,将细胞类型注释的准确率平均提升55.5%,并揭示出更精准的细胞特异性功能通路和遗传力富集,助力细胞类型特异性生物机制的发现。
南开大学数学科学学院“省身班”本科生朱书辰、花赫阳为本文的共同第一作者,陈盛泉教授为本文的通讯作者。
相关代码与数据:https://github.com/BioX-NKU/Fountain
课题组主页:https://biox-nku.cn
学术合作组织
(*排名不分先后)
战略合作伙伴
(*排名不分先后)
转载须知
【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。
BioArt
Med
Plants
人才招聘
近期直播推荐
来源:帕拉达科学