摘要:细胞谱系记录了个体内细胞分裂的历史,对研究发育机制与疾病原理具有重要意义。目前很多追踪细胞谱系的方法都需要对编辑细胞的DNA来标记细胞的谱系,因此并不适用于人体研究。而那些不需要直接编辑细胞的方法需要依赖于罕见的体细胞DNA突变。由于体细胞突变率极低 ( pe
点评 | 周斌(中国科学院分子细胞科学卓越创新中心)
细胞谱系记录了个体内细胞分裂的历史,对研究发育机制与疾病原理具有重要意义。目前很多追踪细胞谱系的方法都需要对编辑细胞的DNA来标记细胞的谱系,因此并不适用于人体研究。而那些不需要直接编辑细胞的方法需要依赖于罕见的体细胞DNA突变。由于体细胞突变率极低 ( per nt/division) ,但这种方法不仅技术要求高、也非常昂贵 (大概每个细胞要200美元) ,既低效又难以精准的分辨谱系。是否有可能突破现有的技术瓶颈,在人体里实现高效、精准、多组学的谱系追踪呢?这需要全新的思路!
新技术揭示新发现,新发现引导新概念
西湖大学的李莉研究员在博后期间开发了DARLIN谱系示踪小鼠模型和sc-Camellia-seq。其中,sc-Camellia-seq是首个可以同时测量细胞谱系和DNA甲基化的测序方法。在与李莉合作、运用这两个新技术研究造血干细胞的命运选择问题时,西湖大学的王寿文研究员通过不懈努力的数据解读,意外发现相比于转录组和染色质开放状态,DNA甲基化在细胞发育分化的进程中能很好得保留细胞的谱系信息,即DNA甲基化有细胞的克隆记忆 (详见BioArt报道:) 。
通过深入思考,王寿文与李莉研究员意识到DNA甲基化数据获取相对简单、遗传稳定性强且表观突变率频率高 (per CpG/division) ,因此DNA甲基化上的表观突变有可能成为一种极具潜力的谱系追踪信息来源,为人体内的谱系研究开辟崭新的工具。
图1:单细胞扩增过程中DNA甲基化突变的积累。
继2023年以共同通讯作者身份与李莉等合作在Cell上发表新一代谱系追踪小鼠DARLIN后,时隔一年,2025年1月16日,西湖大学的王寿文团队与李莉研究员再次合作,在Nature Methods上发表了文章High-resolution, noninvasive single-cell lineage tracing in mice and humans based on DNA methylation epimutations,开发谱系追踪新的计算工具MethylTree,从单细胞DNA甲基化数据中以接近100%的准确性重构细胞的谱系,从而揭示了在人体中实现非侵入性、高分辨谱系追踪的崭新前景。
MethylTree如何寻找细胞谱系?
想象一下,细胞在分裂的过程中,会留下“痕迹”,这些痕迹就像树上的年轮,告诉我们每一步发生了什么。MethylTree就是专门分析这些“痕迹”的工具,只不过它观察的是DNA中的甲基化信息。这些甲基化会在细胞的分裂过程中发生微小变化 (表观突变) ,MethylTree就用利用这些不同微小的变化来重建细胞之间的关系。这又需要解决哪些关键的技术困难呢?
破解稀疏难题:突破单细胞DNA甲基化测序局限
核心的挑战在计算,而这正是王寿文研究员所带领的计算基因组学与谱系追踪实验室的优势所在!王寿文研究团队面临的第一个难题是如何从稀疏的DNA甲基化数据中提取谱系信息。单细胞 DNA 甲基化测序通常仅覆盖基因组 ~5% 的区域,因此大部分基因组区域的数据都是缺失的。这就像试图从一张碎裂的拼图中还原整个画面,极具挑战。这种大批量数据缺失的问题通常被称为稀疏性。传统的甲基化信号分析方法 (如推测缺失值、或者选取大片基因组区域的平均甲基化作为特征等) 无法揭示谱系信息。MethylTree通过直接计算两细胞“小片段”间重叠的CpG位点的Pearson相关性,以此构建细胞之间的相似性矩阵,进而揭示细胞之间谱系的关系。这巧妙地避开了缺失值问题,并保留了小片段区域特有的“随机”谱系信息。
图2:MethylTree工作流程示意图。MethylTree可以从稀疏的单细胞DNA甲基化数据中推测细胞谱系的相似性,并进一步重构谱系发生树。
降噪与误差校正:实现高精度谱系推断
由于单细胞测序存在测量误差,细胞间的相关性计算可能被噪声影响而偏向零,导致谱系推断精度下降。此外,不同细胞样本可能因测序质量差异产生异质性噪声,进一步加剧了细胞间相似性矩阵的扭曲。研究团队通过迭代算法,开发基于Pearson相关性的偏差校正模型,优化每个细胞的噪声衰减因子,从而最大限度地减少误差对相似性矩阵的影响。通过这一过程,MethylTree能够更为清晰、准确的重建谱系关系。
图3:293T谱系热图降噪前(左图)与降噪后(右图)。每个谱系热图右侧的颜色条不同颜色表示不同克隆。降噪前谱系热图中属于同一个克隆的细胞被分散到别的克隆中,降噪后谱系热图中属于同一个克隆的细胞都聚集在一起。
去除细胞类型信号干扰,准确重构分化系统的细胞谱系
细胞的甲基化状态不仅仅会积累“随机”的甲基化突变,也会因为细胞分化而发展出某个细胞类型特有的甲基化模式。这些“确定性”的细胞类型信号有可能会在相似性矩阵中占主导地位,从而掩盖谱系关系。
针对这一问题,研究团队假设细胞间的原始相似性矩阵是由确定的细胞类型信号和随机的谱系信号线性叠加而成的,并开发了一个新的算法可以在已知细胞类型标记的情况下直接从原始相似性矩阵中过滤掉细胞类型信号,从而精准地重构细胞的谱系。这个算法的最大好处是不需要预先知道哪些基因组区域的DNA甲基化模式是细胞类型特异性的,从而规避了由此带来的很多困难。细胞的类型标签可以通过同时捕获细胞的转录组或者通过简单的流式分选获得。研究团队在模拟和生殖腺细胞的公共数据集中都成功验证了这一方法的准确性。
图4:单细胞分裂分化模拟(左图)中谱系热图去除细胞类型信号前(中图)与去除细胞类型信号后(右图)。
MethylTree实现精准谱系追踪
为了测试MethylTree的性能,研究团队首先利用计算机模拟从单一细胞开始经历多次分裂形成的克隆扩增,同时引入随机的 DNA 甲基化表突变。在这样一组覆盖率仅为 5% 的稀疏基因组数据中,MethylTree 成功重建了所有细胞的分裂历史。在模拟实验取得成功后,研究团队进一步挑战真实生物系统。研究团队首先选取了人类 HEK 293T 细胞进行谱系追踪实验。通过将单细胞分离后培养生成单克隆,再通过单细胞测序获取这些克隆的 DNA 甲基化数据。MethylTree 成功区分了不同谱系来源的克隆,准确重建了它们的分裂历史。
为了验证 MethylTree 在更加复杂生物系统中的表现,团队选择了小鼠造血系统进行实验。在这一系统中,造血干细胞不仅会自我更新,还会分化成多种血液细胞类型。团队获得了每个细胞的转录组和DNA甲基化特征,并运用预先插入的谱系标记作为金标准来验证MethylTree的准确性。在这样复杂的系统中,MethylTree 同样成功识别了所有52 个预先标记的多细胞克隆,并揭示了这些克隆的分化路径。此外,团队在人的造血系统、早期胚胎发育、癌症等多个实验体系中再次验证了MethylTree能以~100%的准确性从单细胞DNA甲基化数据中准确重构细胞谱系。
图5:MethylTree成功重建人类脐带血的谱系。MethylTree谱系热图中的克隆(右图)与实验中慢病毒LARRY定义的克隆(左图)一致。
应用与展望
MethylTree无需基因编辑就可精准地、以多组学的方式追踪细胞谱系,开启了非侵入式谱系追踪的新篇章,为研究人类组织发育、疾病发生机制和干细胞疗法提供了前所未有的可能性。以造血系统研究为例,研究团队通过 MethylTree 精确推断出小鼠体内造血干细胞的克隆数量为约 250 个,为理解造血系统的起源、血液疾病和再生医学提供了理论基础。同时,团队还将 MethylTree 应用于早期胚胎发育。通过分析人类早期胚胎,发现在四细胞时期细胞就已经显示出命运偏向,颠覆了传统的随机命运选择的观点,为胚胎学研究注入新视角。
“ 这项研究只是一个开始。 ”王寿文研究员展望道,“ 我们希望借助 MethylTree 解码人类复杂的生命谱系,并将这一工具应用于癌症演化、再生医学等领域,未来我们或许可以解锁更多的生命奥秘——从疾病的发生发展,到治疗的个性化优化,这些都有了更清晰的路径。 ”
图6:MethylTree可以准确重建所有发育关键阶段的谱系。
MethylTree背后的故事
在这项工作之前,几乎没有人相信甲基化上的表观突变可以被利用成为一个普适的谱系追踪工具。这是因为上面提到的多个挑战:数据的稀疏、不同细胞类型具有特定的甲基化模式、以及甲基化在不同发育阶段的剧烈变化。当然,团队的工作中揭示了另一道障碍:由于不同细胞可能有着不同程度的噪声污染,直接影响微弱的谱系信号的提取。正是因为王寿文研究员具有物理学和基因组学的交叉训练背景,以不同的眼光思考问题,才在这个方向上实现了意想不到的突破,并最终开发了MethylTree。
当然,契机也同样重要。王寿文研究员说:“ 非常有幸能够与李莉研究员合作,深度参与到此前的DARLIN项目中,并通过坚持不懈的努力、在这个过程中意外发现DNA甲基化具有克隆记忆,从而启发了MethylTree的工作。 ”
陈孟旸和傅瑞江同学为文章的共同第一作者,李莉研究员为共同通讯,王寿文研究员为文章最后通讯作者。
专家点评
周斌(中国科学院分子细胞科学卓越创新中心研究员,新基石研究员)
如何能不依赖基因编辑工具、在人体里实现高效、精准、多组学的谱系追踪,是一个迄今为止尚未被攻破的技术难题,并因此大大限制了我们对人体细胞的认识。虽然之前的研究表明可以利用DNA上的随机突变去追踪人体细胞的谱系,但是这钟方法需要寻找极其罕见的体细胞DNA突变,犹如大海捞针,因此存在费用高、时间分辨率低、且无法同时获得细胞转录组信息等问题。
此前虽然也有工作试图通过DNA甲基化上的表观突变来追踪谱系,但这些工作局限于基因组不稳定的癌细胞,且并未通过谱系追踪实验证实相关算法的准确性。更重要的是,DNA甲基化的信号不仅仅包括谱系相关的随机突变,更包括因为细胞分化带来的细胞类型相关的信号。而这是此前的工作没有考虑过的。
王寿文团队与李莉研究员创造性地利用DNA甲基化修饰上的随机突变,通过巧妙的计算方法MethylTree突破甲基化数据特有的挑战,从而以一种意想不到的方式攻破了这一难题。此外,这项工作产生了大量的有谱系金标准、多细胞类型的单细胞DNA甲基化数据,并在多种生物学情景系统地评估了MethylTree的表现,表明MethylTree能够以接近100%的准确性预测细胞的谱系。单细胞DNA甲基化测序可以与转录组等其他组学的测序结合起来,且成本相对低廉。因此,这项工作为在人体中实现高效、精准、多组学的谱系追踪打开了全新的局面,非常期待王寿文团队在这个方向上的后续工作。
课题组招聘
王寿文是西湖大学生命科学学院与西湖实验室研究员、博士生导师,同时任西湖大学理学院物理系兼聘教授。近几年来,以通讯作者(含共同)身份在Cell、Nature Methods、Nature Biotechonology、Nature Communications、Nature Protocols等杂志发表多篇研究论文。王寿文课题组紧密结合计算与实验方法,致力于前沿谱系示踪技术的开发与应用,尤其是以DNA甲基化为代表的非侵入式、多组学谱系追踪方法的进一步开发与在人体中的应用。课题组已经搭建起多个谱系示踪实验平台,形成了计算与实验多学科交叉的良好氛围。王寿文课题组长期招聘副研究员、助理研究员、博士后、博士生以及科研助理,欢迎拥有实验或计算背景、且对谱系示踪前沿方向有热情的青年才俊加盟。
实验室主页https://www.shouwenwang-lab.com/
李莉于2024年初加入西湖大学,担任西湖实验室研究员和生命科学学院博士生导师,建立谱系示踪与表观遗传调控实验室。近年来,在Cell、Nature Methods、Cell Stem Cell 和Cell Research等杂志发表多篇研究论文。实验室一方面运用已建立的多组学谱系示踪小鼠模型研究发育过程和炎症与免疫过程中的细胞命运调控机制,另一方面致力于开发新一代的谱系示踪动物模型和测序技术,为全面解析细胞命运并开发新型细胞疗法奠定基础。李莉课题组长期招聘副研究员、助理研究员、博士后、博士生以及科研助理;欢迎具有计算基因组学或实验生物学背景的有志青年邮件联系!
实验室主页https://lili-lineagelab.com/
制版人:十一
BioART战略合作伙伴
(*排名不分先后)
BioART友情合作伙伴
来源:不爱喝奶茶的科学家