摘要:许多领域(例如神经科学)正在经历细胞数据的大量增长,这凸显了组织和解释大型数据集的必要性。一种流行的方法是通过层次聚类将数据划分为可管理的子集。最新研究推出一种技术,根据细胞在簇之间的差异必须大于簇内的差异这一基本原则,系统地确定何时停止细分簇。通过将数据驱动
许多领域(例如神经科学)正在经历细胞数据的大量增长,这凸显了组织和解释大型数据集的必要性。一种流行的方法是通过层次聚类将数据划分为可管理的子集。最新研究推出一种技术,根据细胞在簇之间的差异必须大于簇内的差异这一基本原则,系统地确定何时停止细分簇。通过将数据驱动的无监督层次聚类与统计测试相结合来对细胞数据集进行分类。这些通用函数适用于任何可以组织为二维数值矩阵的细胞数据集,包括分子、生理和解剖数据集。生物医学数据正在以越来越快的速度积累。特别是,现在大量单个细胞通常通过高通量分子测序和显微成像进行表征,这促使多个大型项目对生物体和生物系统进行全面的细胞分类。然而,目前尚无公认的客观方法来确定适当的聚类粒度。相反,在从数据集生成聚类树状图后,专家的科学判断通常会通过在树状图上画一条水平线来指导最终的数据分类。
来自美国乔治梅森大学Giorgio A. Ascoli团队最近设计一种原创技术来改进在树状图上画一条水平线来指导最终数据分类的做法,该技术基于细胞在类间必须比类内差异更大这一基本原理。这种简单的推理可以通过将无监督层次聚类与严格的统计方差检验相结合来算法实现,从而产生本质上由数据驱动的分类。这种细胞分类方法不仅适用于轴突形态,还可用于探索睾丸精子发生中涉及的转录组学和脓毒症相关脑病背后的机制。该细胞分类方法也可以为其他模式提供新的见解,例如了解小细胞肺癌的遗传亚群。应注意这种细胞分类技术存在某些限制。首先,它的实用性取决于数据的质量。在人工制品或标签方面可能存在局限性,由于二次数据分析的性质,通常知识有限且无法控制。分类协议仅适用于可以将数据集配置为二维数值矩阵的情况,其中行代表不同的细胞,列描述单独的细胞特征。总之,这种分类协议适用于广泛类别的细胞数据,例如与形态学、转录组学或基因组学相关的数据。所述计算机代码可从 GitHub 存储库 (https://github.com/Projectomics/MATLAB) 免费获取,以方便将其用于研究各种细胞数据。
文章在《中国神经再生研究(英文)》杂志2025年 9月 9 期发表。
文章来源:Wheeler DW, Ascoli GA (2025) A novel method for clustering cellular data to improve classification. Neural Regen Res 20(9):2697-2705. doi.org/10.4103/NRR.NRR-D-24-00532
来源:中国神经再生研究杂志