摘要:每个微小的细胞核里,都精巧地收纳着超过两米长的DNA螺旋。这惊人的“压缩艺术”并非随意的缠绕,而是高度精密的三维(3D)折叠,塑造了染色质(chromatin)的复杂结构。过去十年,借助染色体构象捕获技术(chromosome-conformation-cap
每个微小的细胞核里,都精巧地收纳着超过两米长的DNA螺旋。这惊人的“压缩艺术”并非随意的缠绕,而是高度精密的三维(3D)折叠,塑造了染色质(chromatin)的复杂结构。过去十年,借助染色体构象捕获技术(chromosome-conformation-capture, Hi-C)等革命性工具,研究人员绘制了基因组在细胞群体层面的平均折叠图谱,发现了像拓扑关联结构域(Topologically Associating Domains, TADs)这样的基本结构单元,它们像“基因组的隔间”,隔离基因与调控元件(regulatory elements)。
然而,群体数据看到的是“平均的细胞”,细胞世界却充满了个体差异。每一个细胞、甚至同一细胞内的两个等位基因(allele),其3D结构都可能瞬息万变,呈现出令人着迷的“异质性”(heterogeneity)。这种单细胞层面的结构变异,是否隐藏着调控基因功能、决定细胞命运的关键秘密?传统的群体分析难以捕捉这些动态的、非平均的细节。
近年来,多重序列化Oligopaints DNA FISH(multiplexed sequential Oligopaints DNA FISH)成像技术应运而生,它能够像“光影追踪”一样,在单细胞、高分辨率下定位基因组位点,直接获得单个等位基因的配对距离矩阵(pairwise distance matrix),为揭示单细胞3D结构打开了新窗。但这项前沿技术也带来了计算分析的巨大挑战:数据信噪比低,且普遍存在因探针脱落(probe dropouts)导致的缺失位点,直接用现有算法分析极易产生假阳性(false positives)。
为了破解这一难题,5月12日《Nature Methods》的研究报道“FISHnet: detecting chromatin domains in single-cell sequential Oligopaints imaging data”,开发了FISHnet——一个基于图论(graph theory)的创新算法。FISHnet能够巧妙地处理单细胞成像数据的固有挑战,敏感且特异地识别染色质结构域和边界。
单细胞,新视角,新挑战
近年来,多重序列化Oligopaints DNA FISH (multiplexed sequential Oligopaints DNA FISH) 成像技术应运而生。这项技术可以高分辨率地追踪特定基因组区域内一系列位点(loci)的空间位置,从而构建出单细胞或单等位基因的3D结构图。简单来说,就是给DNA链上的很多“小标记”贴上荧光探针(probe),然后一步步拍照片,记录下每个标记的位置。通过计算不同标记之间的空间距离,我们可以得到一个反映基因组局部3D构象的配对距离矩阵(pairwise distance matrix)。
这项技术提供了前所未有的单细胞细节,但也带来了新的计算分析难题。首先,单细胞数据的信噪比(signal-to-noise ratio)相对较低,微小的空间波动就可能对距离计算产生影响。其次,由于探针可及性低或技术偏差,数据中常常存在大量的“探针脱落”(dropouts),即某些基因组位点没有被成功标记和成像。现有的用于分析群体Hi-C数据的算法往往难以直接应对这些挑战,因为群体数据可以通过平均多个细胞的信息来弥补这些不足,而单细胞数据则必须直接处理这些技术偏差。我们需要一个专门为这种单细胞成像数据量身定制的算法。
FISHnet登场:图论如何捕捉基因组折叠?
为了解决这一痛点,研究人员开发了FISHnet——一个基于图论(graph theory)的新算法,专门用于在单细胞序列化Oligopaints成像数据的配对距离矩阵中检测染色质结构域(chromatin domains)。
FISHnet的核心思想是将基因组位点视为图的节点(nodes),它们之间的距离关系视为边(edges)。FISHnet通过优化网络的模块化(network modularity),来识别哪些节点(基因组位点)倾向于聚在一起形成紧密的“社区”,也就是染色质结构域。高模块化得分意味着一个社区内的节点相互之间连接紧密,而与社区外的节点连接稀疏,这恰好符合结构域的定义:结构域内部的位点在空间上更接近,而与外部位点距离更远。
FISHnet的分析流程分为几个关键步骤:
阈值二值化(Thresholding Binarization):首先,算法会选择一系列不同的空间距离阈值(distance thresholds)。对于每一个阈值,它会将配对距离矩阵转化为一个二值矩阵(binary matrix):如果两个基因组位点之间的空间距离小于或等于当前阈值,则对应矩阵项设为1(表示它们“靠近”或“相互作用”),否则设为0。为什么要用多个阈值?因为不同的距离阈值可以帮助我们识别不同大小的结构域——小于150纳米的阈值倾向于识别更小的结构域模式,而大于500纳米的阈值则倾向于识别更大的结构域模式。通过扫描从最小到最大的距离,FISHnet能够捕获跨越不同距离尺度的结构域模式。
平滑处理(Smoothing):对二值矩阵应用一个小窗口(例如2x2)的信号平均(signal averaging)进行平滑处理。这个步骤有助于降低噪声,提高检测结构域的能力。研究表明,小窗口平滑效果最好,大窗口可能导致边界偏移。
模块化最大化(Modularity Maximization):将平滑后的二值矩阵视为邻接矩阵(adjacency matrix),应用基于模块化优化的社区检测算法(community detection method),如Louvain类算法,来识别基因组位点形成的社区,即结构域。为了克服算法的随机性和局部最优问题,FISHnet会运行多次(论文中是20次),并选择所有运行结果中与其余结果最相似的那个分区作为当前阈值下的“一致性分区”(consensus partition),使用调整后的RAND分数(adjusted RAND score)来衡量相似性。
一致性分组(Consensus Grouping): 在扫描了多个距离阈值并得到了每个阈值下的一致性分区后,FISHnet会寻找那些在连续多个阈值下(论文中是至少连续四个阈值)都保持不变的结构域。这些在不同距离阈值下都稳定存在的结构域被认为是高可信度的。算法会将这些稳定存在的结构域合并,得到最终的结构域和边界调用(domain calls and boundary calls)。这种基于“平台”(plateau)的一致性分组策略,是应对单细胞数据低信噪比和探针脱落带来的假阳性(false positives)挑战的关键。
硬核验证:FISHnet有多靠谱?
那么,FISHnet的检测能力到底如何?研究人员通过一系列严格的测试来验证其性能:
模拟数据测试:在超过600个基于绳-粘合子(SBS)模型模拟的单等位基因染色质折叠数据上进行了测试。FISHnet的接收者操作特征曲线下面积(Area Under the Curve, AUC)高达0.95。
应对探针脱落:序列化Oligopaints数据的一个主要挑战是探针脱落,导致大量数据丢失。研究人员在模拟数据中人工引入了不同比例的脱落(从5%到100%)。结果显示,即使在没有进行任何插值的情况下,FISHnet对结构域调用的鲁棒性也很高,在40%脱落率时AUC仍有0.91。而当结合线性插值(linear imputation)技术(一种弥补缺失数据的方法)时,FISHnet的性能进一步提升,即使在80%的脱落率下,AUC仍能达到0.88。线性插值有效地将假阳性率限制在较低水平(对于大于50%的脱落率,假阳性率约为5.5%),证明了FISHnet在应对高脱落率实验数据时的实用性。
与群体Hi-C的对比:研究人员在公开的HCT116(30 kb分辨率)和mESC(25 kb分辨率)细胞序列化Oligopaints数据上运行FISHnet。结果显示,将大量单细胞FISHnet结构域调用集合起来,形成的“群体”结构域掩膜(ensemble FISHnet domain mask)与同一基因组区域的群体Hi-C数据高度相关。例如,HCT116数据的皮尔逊相关系数为0.90,IMR90为0.88,K562为0.91。这证实了FISHnet在单细胞层面上识别的结构域和边界,与群体水平的TADs/subTADs是对应的。在果蝇胚胎(Drosophila melanogaster embryo)10 kb和2 kb分辨率的数据上,FISHnet也准确识别出了肉眼可见的结构域结构。
功能扰动模型的验证: 在一个已知的扰动模型——通过Auxin诱导去除RAD21蛋白(黏连蛋白的一个核心亚基)来破坏TADs/subTADs的HCT116细胞模型——中测试了FISHnet的性能。对照组细胞中,最强的FISHnet边界在大约10%的等位基因中存在;而在去除RAD21后,该边界的存在频率降至约4%。这一发现与之前群体Hi-C研究中观察到的黏连蛋白敲低导致的边界破坏模式一致,进一步证明了FISHnet能够定量反映基因组结构随细胞状态的变化。
这些验证结果共同表明,FISHnet是一个高度灵敏且特异的工具,能够可靠地在模拟数据和真实单细胞成像数据中识别结构域和边界,并且对实验数据中常见的探针脱落具有较好的鲁棒性,结合线性插值效果更佳。
拨开迷雾:解析单细胞异质性与细胞类型特异性
FISHnet最令人兴奋的能力之一,在于它能够以前所未有的细节,在单细胞层面揭示基因组折叠的异质性。研究人员分析了小鼠大脑组织中大量兴奋性神经元(excitatory neurons, n=2065)和少突胶质细胞(microglia, n=130)的FISHnet数据。通过对FISHnet边界调用数据进行聚类分析(clustering),他们发现兴奋性神经元可以被细分为49个具有相似折叠模式的独立亚群(subclusters),而少突胶质细胞可以被细分为8个亚群。在每个亚群内部,边界的视觉位置与FISHnet边界调用的频率高度相关,这表明FISHnet能够解析同一细胞类型内不同个体细胞在边界位置上的差异。
更进一步,FISHnet能够进行统计检验(statistical testing),识别在不同细胞类型(如神经元和少突胶质细胞)之间存在显著差异的边界位点。通过对神经元和少突胶质细胞的FISHnet边界数据应用卡方检验(chi-squared test),FISHnet有效地识别出了在其中一种细胞类型中更可能出现的显著边界。例如,置换检验(permutation test)进一步证实了卡方检验识别出的某些边界在少突胶质细胞中出现的比例显著高于仅凭偶然性在兴奋性神经元中出现的预期。这项能力对于理解细胞类型特异性的基因组折叠如何贡献细胞身份和功能至关重要。
FISHnet的边界调用甚至可以直接用来区分细胞类型。研究人员对IMR90、K562和A549这三种人类细胞系的FISHnet边界调用数据进行了主成分分析(Principal Component Analysis, PCA)。惊人的是,仅仅依靠FISHnet的边界调用数据,PCA就能够清晰地将这三种细胞类型区分开来。相比之下,直接对原始的配对距离矩阵进行PCA分析,则无法有效地区分细胞类型。这凸显了FISHnet强大的特征提取能力,它能够从嘈杂的原始数据中抽取出最能代表细胞类型特异性基因组折叠模式的信息。
层层嵌套: TADs/subTADs的单细胞真相
早期对群体Hi-C数据的研究揭示了TADs内部存在嵌套的subTADs结构,形成了层次化的折叠模式。但是,这些嵌套结构是基因组在单个细胞中的真实存在,还是仅仅在群体平均数据中才显现出来的“涌现属性”(emergent property)?这是领域内的重要问题。
FISHnet利用其多距离阈值的特性,对HCT116细胞的单等位基因数据进行了分析。通过对不同距离阈值下的FISHnet结构域调用进行整合,研究人员发现在单个等位基因上能够检测到与TADs和subTADs一致的嵌套结构。使用小于150纳米的阈值时,FISHnet倾向于识别经典的小型subTADs样结构;而使用150-500纳米或大于500纳米的阈值时,则倾向于识别中大型的TADs样结构。这意味着在同一条DNA链上,FISHnet能够同时捕捉到大小不同、相互嵌套的结构域。这些数据有力地支持了嵌套式染色质结构域在单细胞层面、在特定的时间点是真实存在的,而非仅是群体数据的产物。
结构与功能:FISHnet的未来展望
总的来说,FISHnet是一个强大的新工具,它克服了单细胞序列化Oligopaints成像数据分析中的关键技术挑战,提供了一种敏感且特异的方法来检测单细胞层面的染色质结构域和边界。它不仅能识别与群体TADs/subTADs对应的结构,更能揭示单个细胞甚至单个等位基因内部的结构异质性,识别细胞类型特异性边界,并确认了单细胞层面嵌套结构的存在。通过结合基因扰动实验,FISHnet能够定量评估特定分子(如黏连蛋白)对基因组结构的影响,从而深入探索结构与功能之间的联系。
FISHnet的出现填补了单细胞基因组3D结构分析领域的空白,为研究单个细胞基因组折叠的动态变化、细胞类型特异性结构以及这些变化如何影响基因表达和细胞命运提供了新的视角。重要的是,FISHnet的代码已经开源,供所有科研人员免费使用(GitHub链接:https://github.com/RohanpatelUpenn/FISHnet)。
期待FISHnet能够赋能未来的研究,帮助研究人员更全面地理解单等位基因折叠变异在基因组功能中的作用,解开更多藏在细胞核内的“折叠艺术”秘密。
参考文献
Patel R, Pham K, Chandrashekar H, Phillips-Cremins JE. FISHnet: detecting chromatin domains in single-cell sequential Oligopaints imaging data. Nat Methods. 2025 May 12. doi: 10.1038/s41592-025-02688-1. Epub ahead of print. PMID: 40355724.
声明:本文仅用于分享,不代表平台立场,如涉及版权等问题,请尽快联系我们,我们第一时间更正,谢谢!
往期热文:
Cell
| 破译m⁶A谜团:不再是单一“自毁”,mRNA的生命周期藏着tRNA的“救援”Nature Medicine
| 终结房颤“剪不断理还乱”?LVA消融,不是所有患者都受益的“万金油”!N Engl J Med
| 突破!Zongertinib:精准靶向HER2,高选择性带来低毒性,肺癌治疗迈入新时代Cell
| 癌细胞“作妖”新真相:揭秘ecDNA如何利用细胞自毁程序“续命”!Science | 别再只怪吃得多!研究发现中年内脏脂肪扩张的关键“脂肪建造师”
Cell
| 揭秘阿尔茨海默病记忆“火花”熄灭之谜——Tau蛋白如何精准破坏神经元爆发力?来源:生物探索