摘要:想象一下,一个微小到肉眼几乎无法看见的细胞,一个受精卵,它如何能在短短几天内,像施展魔法一样,分化、增殖,最终编织出构成我们身体的各种复杂组织和器官?这无疑是生命科学中最迷人的谜题之一。我们知道,DNA,这个生命的蓝图,包含了所有的遗传指令。但是,仅仅有蓝图是
引言
想象一下,一个微小到肉眼几乎无法看见的细胞,一个受精卵,它如何能在短短几天内,像施展魔法一样,分化、增殖,最终编织出构成我们身体的各种复杂组织和器官?这无疑是生命科学中最迷人的谜题之一。我们知道,DNA,这个生命的蓝图,包含了所有的遗传指令。但是,仅仅有蓝图是不够的。就像一个庞大的交响乐团,即使拥有了乐谱(DNA),也需要一位出色的指挥家来决定何时、何地、以何种强度演奏哪些乐章,才能最终呈现出和谐动听的生命乐章。
这位“指挥家”,在生物学中,我们称之为“表观遗传调控 (epigenetic regulation)”。它并不改变DNA序列本身,而是像在乐谱上做标记一样,通过各种化学修饰(比如DNA甲基化、组蛋白修饰)或者改变染色质(DNA和蛋白质的复合体)的结构,来控制基因的“开”与“关”,也就是基因的表达。特别是在生命的最早期——胚胎发育阶段,这种调控尤为关键和活跃。从一个全能性的受精卵 (zygote) 开始,细胞经历了一系列精准的“命运抉择”,最终分化成构成胎儿本身的细胞和支持胎儿发育的胚外组织(如胎盘)。这个过程充满了表观遗传的精妙舞蹈。
然而,想要窥探生命之初的这些“指挥细节”并非易事。早期胚胎的细胞数量极其稀少,而且变化非常迅速,这给研究带来了巨大的技术挑战。传统的测序方法,尤其是那些依赖大量细胞或者读取DNA片段较短的技术,很难捕捉到这一时期微妙而关键的表观遗传变化,特别是那些发生在基因组中大量重复序列区域的变化——这些区域曾被认为是“基因组暗物质”,但现在我们知道它们扮演着重要的角色。
现在,研究人员利用一项名为 scNanoATAC-seq2 的创新技术,成功绘制出了小鼠早期胚胎发育过程中,单个细胞分辨率下的染色质可及性 (chromatin accessibility) 图谱。染色质可及性,可以通俗地理解为基因组的哪些区域是“开放”的,允许调控因子(如转录因子, transcription factors, TFs)进入并启动基因表达。这项技术结合了单细胞分析 (single-cell analysis) 和纳米孔长读长测序 (Nanopore long-read sequencing) 的优势,即使只有一个细胞,也能深入分析其染色质的开放状态,尤其擅长解析那些长而重复的DNA序列。
这项发表在《Science 》上的研究“Chromatin accessibility landscape of mouse early embryos revealed by single-cell NanoATAC-seq2”,为我们理解生命的开端提供了前所未有的高清视图。它不仅揭示了合子基因组激活 (zygotic genome activation, ZGA)、细胞谱系分化 (lineage differentiation)、X染色体失活 (X chromosome inactivation, XCI) 等关键生命事件背后的表观遗传调控网络,还让我们对那些曾经被忽视的重复序列和旁系同源基因 (paralogous genes) 的功能有了全新的认识。
开启“上帝视角”:全新技术洞悉生命之初的“染色质地貌”
想象一下,我们想了解一片广袤土地的地貌,知道哪里是山峰,哪里是峡谷,哪里适合耕种,哪里隐藏着宝藏。在基因组的世界里,“染色质可及性”就如同这片土地的地貌。开放的区域就像平坦的谷地,容易被各种调控蛋白(比如转录因子)“访问”,从而启动基因表达;而紧密关闭的区域则像陡峭的山峰,难以接近,基因也因此处于沉默状态。理解染色质地貌的变化,对于揭示基因如何被精确调控至关重要。
然而,在生命开始的那几天,这片“地貌”变化极其迅速,而且“土地”的范围——也就是细胞的数量——极其有限。传统的“测绘”技术往往需要大量的“土壤样本”(细胞),或者只能看清“地图”上分辨率不高的大致轮廓,对于那些结构复杂、重复出现的“地标”(重复序列)更是束手无策。
这就是 scNanoATAC-seq2 技术大显身手的舞台。这项由研究团队开发并优化的技术,堪称绘制早期胚胎染色质地貌的“高精度卫星”。它的“高明”之处在于:
单细胞精度 (Single-cell precision):它能够直接对单个细胞进行分析。这意味着研究人员不再需要将成百上千个细胞混合在一起,从而丢失了宝贵的细胞间差异信息。他们可以精确地知道每一个数据点来自哪个特定的细胞,甚至可以追踪这个细胞来源于哪个特定的胚胎。
长读长测序 (Long-read sequencing):它采用了牛津纳米孔技术 (Oxford Nanopore Technologies, ONT),可以读取非常长的DNA片段。传统短读长测序就像是用很多短尺子去测量一条长长的、很多地方图案相似的绳子,很容易拼错位置。而长读长测序则像是用一把很长的卷尺,能够轻松跨越那些重复的区域,准确地定位DNA片段在基因组上的位置。这对于研究占基因组近一半的重复序列至关重要。
适用于稀有样本 (Suitable for scarce samples):由于其高灵敏度和优化的实验流程(例如,将细胞分离、细胞核提取、Tn5转座酶处理等多个步骤整合在单一反应管中,最大限度减少样本损失),scNanoATAC-seq2 甚至可以从一个单独的胚胎(包含极少量细胞)开始进行分析,这对于研究珍贵的早期胚胎样本来说是一个巨大的突破。
利用这项强大的新工具,研究团队系统地分析了小鼠从受精卵 (E0.5) 到晚期囊胚 (late blastocyst, E4.5) 的整整10个关键发育阶段。他们成功获取了 3302个 高质量的单细胞染色质可及性图谱。每个细胞平均能检测到超过 23,000个 DNA片段,而且这些片段的中位长度达到了 5486个碱基对 (base pairs),远超传统短读长ATAC-seq,充分体现了长读长测序的优势。更令人欣喜的是,代表实验噪音的线粒体DNA污染被控制在极低的水平(中位数仅为0.65%)。
基于这些高质量的数据,研究人员能够清晰地识别出发育过程中出现的 11种 不同类型的细胞,包括合子、早期和晚期2细胞胚胎、4细胞、8细胞、桑葚胚 (morula)、内细胞团 (inner cell mass, ICM)、早期滋养外胚层 (early trophectoderm, TE)、上胚层 (epiblast, EPI)、原始内胚层 (primitive endoderm, PE) 以及晚期滋养外胚层 (late TE)。通过计算分析,他们构建了这些细胞的发育轨迹(伪时间轨迹, pseudotime trajectory),发现其与真实的胚胎发育时间高度吻合。
总的来说,scNanoATAC-seq2技术为我们打开了一扇前所未有的窗口,让我们能够以前所未有的清晰度和深度,观察生命最早阶段那瞬息万变的染色质“地貌”,为后续揭示基因调控的奥秘奠定了坚实的基础。
“基因唤醒”时刻:谁在清晨按下了生命的启动按钮?
受精卵形成之初,它的基因组很大程度上是“沉睡”的,生命活动主要依赖于母亲留在卵子中的“遗产”——母源因子 (maternal factors)。然而,这些“遗产”很快会被消耗殆尽,胚胎必须“自力更生”,启动自己的基因表达程序。这个过程被称为合子基因组激活 (Zygotic Genome Activation, ZGA),是胚胎发育的第一个关键转折点,标志着胚胎开始掌控自己的命运。
ZGA并非一蹴而就,在小鼠中,它分为两个波次:一个发生在单细胞晚期的“小规模”激活(minor ZGA),和一个发生在2细胞中晚期的“大规模”激活(major ZGA)。这个过程伴随着剧烈的染色质重塑和表观遗传状态的改变。那么,是谁在这个“清晨时分”,按下了生命程序的启动按钮呢?
利用scNanoATAC-seq2的高分辨率数据,研究者们捕捉到了ZGA期间染色质开放状态的动态变化。他们发现:
关键调控因子的“舞台搭建”:一些被认为在ZGA中扮演重要角色的转录因子基因,其自身的染色质可及性模式与它们下游靶基因结合位点的可及性模式高度相关。例如,对ZGA至关重要的 Obox 基因家族成员,如 Obox6,在minor ZGA期间(早期2细胞阶段)其附近的染色质区域就开始变得开放。有趣的是,scNanoATAC-seq2的长读长优势还帮助研究者识别出了一些之前被短读长技术忽略的 Obox6 潜在增强子 (enhancer) 区域。此外,其他ZGA相关的转录因子,如 Obox5, Zscan4c, Sp1, Myc, Ep300, Nr5a2 等,它们的基因区域及其结合位点的染色质开放模式在合子到2细胞阶段也表现出协同变化,暗示了它们在启动ZGA基因表达网络中的潜在作用。
染色质开放“抢跑”基因表达:通常我们认为,染色质先开放,然后基因才开始表达。但研究者发现,对于一部分ZGA相关基因,染色质的开放似乎“抢跑”了。例如,组蛋白去甲基化酶基因 Kdm5b 在早期2细胞阶段其调控区域就已开放,但它的RNA表达量直到晚期2细胞阶段才显著增加。类似的“时间差”现象也出现在 Obox6, Crxos, Tcstv3 等基因上。这表明,染色质的提前开放可能是在为后续大规模、快速的基因激活“预先铺路”,让转录机器能够迅速就位。
表观遗传修饰的“指挥棒”:ZGA期间染色质的开放状态主要受哪些表观遗传标记调控呢?通过整合分析已有的数据,研究发现组蛋白H3第27位赖氨酸乙酰化 (H3 lysine 27 acetylation, H3K27ac)——一种通常与基因激活相关的标记,以及RNA聚合酶II (RNA polymerase II, RNAP II)——负责转录基因的酶,这两者的富集程度与染色质的开放密切相关。而与基因沉默相关的H3K27me3则呈现负相关。这进一步证实了表观遗传修饰在ZGA调控中的核心作用。
转录活动本身是染色质开放的“稳定器”:研究者使用α-鹅膏蕈碱 (α-amanitin) 和DRB这两种药物抑制胚胎中的RNAP II转录活性。结果发现,被抑制的晚期2细胞胚胎,其染色质开放模式竟然“倒退”回了合子阶段的状态,并且有 5269个 基因位点未能按时打开。这有力地证明了,ZGA期间染色质状态的建立和维持,不仅需要特定的转录因子引导,也依赖于转录活动本身。
人鼠ZGA:殊途同归?:比较小鼠和人类的ZGA过程,研究者发现,尽管两者RNAP II依赖的关键ZGA基因列表重叠度不高(只有438个基因是共通的),但这些保守的基因所参与的生物学过程却高度相似,主要富集在RNA剪接 (RNA splicing)、核糖体生物合成 (ribosome biogenesis)、翻译起始 (translational initiation) 等基础生命活动中。这提示我们,尽管物种间ZGA的具体基因程序有所差异,但其核心目标和调控逻辑可能具有一定的保守性。
这些发现共同描绘了一幅ZGA时期动态而复杂的基因调控图景,揭示了转录因子、表观遗传修饰和转录活动本身如何协同作用,唤醒沉睡的基因组,为后续的生命发育奠定基础。
小鼠胚胎基因表达调控(Credit: Science)
命运的分岔路口:细胞如何选择成为“我”或“我们”?
当胚胎发育到囊胚 (blastocyst) 阶段时,它迎来了第一次重要的“命运抉择”。原本均一的细胞开始分化成两个截然不同的群体:内部的一小群细胞形成了内细胞团 (Inner Cell Mass, ICM),它们是“全能”的种子,未来将发育成为胎儿的所有组织和器官;外部的一层细胞则形成了滋养外胚层 (Trophectoderm, TE),它们将主要形成胎盘等胚外结构,为胎儿提供营养和支持。紧接着,ICM内部又会发生第二次分化,形成上胚层 (Epiblast, EPI)——真正发育为个体的细胞,和原始内胚层 (Primitive Endoderm, PE)——形成卵黄囊等结构。
细胞是如何做出这些关键的命运选择的?表观遗传调控在其中扮演了核心角色。scNanoATAC-seq2技术,凭借其单细胞分辨率和记录每个细胞来源胚胎信息的能力,为研究这一过程中的细胞异质性 (heterogeneity) 提供了强大的武器。
研究发现:
异质性的萌芽:早在16细胞阶段,虽然大多数细胞在整体聚类上还难以明确区分,但通过分析特定谱系标记基因(如ICM和TE的标记)的染色质开放程度,研究者已经能在单个胚胎内部观察到细胞状态的差异,即谱系分化的“苗头”已经出现。这比之前认为的要更早。
谱系特征的建立:随着发育的进行,不同谱系的细胞展现出独特的染色质开放模式。例如,在ICM中,多能性关键基因如 Sox2, Lgr4, Gdf3 等区域更加开放;而在TE中,与滋养层发育相关的基因如 Jak1, Krt8, Krt18, Tfap2a, Gata2 等则显示出更高的染色质可及性。当ICM进一步分化时,EPI细胞维持了 Sox2, Fgf4, Nanog 等多能性基因的开放状态,而PE细胞则下调这些基因,同时上调了 Gata6, Pdgfra 等与原始内胚层相关的基因的染色质可及性。这些变化与已知的RNA表达模式高度一致,证明了染色质可及性在指导细胞命运决定中的基础性作用。
关键转录因子的“自我调控”与“指挥网络”:研究者深入分析了一些谱系决定性的转录因子,如EPI中的 Nanog 和TE中的 Gata3。他们不仅观察到这些基因本身的染色质在特定谱系中变得更加开放(例如,Nanog 在EPI中比在PE中更开放,Gata3 在TE中比在ICM中更开放),还发现这些转录因子下游靶基因结合位点的开放程度也表现出相应的谱系特异性。这揭示了一个“指挥网络”:这些关键转录因子不仅被调控,它们一旦被激活,又会去调控下游一系列基因的表达,从而巩固细胞的谱系身份。有趣的是,对于 Nanog 来说,其基因本身的开放似乎比其下游靶点结合位点的开放要更早一些,这再次暗示了表观遗传调控中可能存在的“预备”机制。
增强子的动态调控:除了基因启动子区域,增强子 (enhancer)——那些远离基因但能调控基因表达的DNA序列——在细胞命运决定中也发挥着关键作用。研究识别出了一些在ZGA时期就被激活,并持续开放到囊胚阶段的增强子,它们可能受到 CTCF, YY1, RXRA 等因子的调控。更重要的是,他们发现许多增强子的活性是动态变化的,呈现出明显的细胞类型特异性。为了验证这些计算预测的增强子是否真的具有活性,研究者挑选了14个在多能性EPI细胞中开放的增强子候选区域(位于 Klf2, Klf5, Zfp57, Fgf4 等关键基因附近),并在胚胎干细胞中进行了实验验证,结果 8个 候选区域(超过一半)被证实具有真实的增强子活性。
这些结果生动地展示了在细胞命运的十字路口,染色质可及性如何作为基因表达的“开关”,在关键转录因子和增强子的协同作用下,精确地引导细胞走向不同的发育路径,最终构建出复杂而有序的生命体。
X染色体的“沉默与唤醒”:性别平衡的精妙之舞
在哺乳动物中,性别由性染色体决定:雌性通常拥有两条X染色体 (XX),而雄性则是一条X染色体和一条Y染色体 (XY)。为了平衡雌性细胞中两条X染色体带来的双倍基因剂量,雌性胚胎在发育早期会经历一个称为X染色体失活 (X Chromosome Inactivation, XCI) 的过程,随机地将其中一条X染色体“沉默”掉,使其上的大部分基因不再表达。这个过程确保了雌性和雄性细胞中X染色体基因的表达水平相当。
有趣的是,在小鼠的早期胚胎中,这种失活并非完全随机,而是具有“印记”特征 (imprinted XCI, iXCI):优先失活来自父亲的那条X染色体 (paternal X chromosome, Xp)。这条被失活的Xp在后续发育中,命运又会因细胞谱系的不同而有所区别:在形成胎盘等胚外组织的TE和PE细胞中,它会一直保持沉默状态;而在将发育成胎儿本身的EPI细胞中,它则会经历一个“重新唤醒”(reactivation)的过程。这个复杂而精妙的调控过程是如何通过染色质结构的变化来实现的呢?
得益于scNanoATAC-seq2能够区分胚胎的性别并进行单细胞等位基因 (allele-specific) 分析,研究者得以深入探究雌性胚胎中X染色体动态变化:
父源X染色体的早期沉默特征:从合子到8细胞阶段,研究者观察到,与来自母亲的X染色体 (maternal X chromosome, Xm) 相比,来自父亲的Xp整体上呈现出更低的染色质可及性。这种染色质的“关闭”状态反映了iXCI的发生,并且这种差异(即iXCI的强度)从4细胞到桑葚胚阶段逐渐增强。
调控中心的“权力交接”:XCI受到位于X染色体上的一个关键调控区域——X失活中心 (X-inactivation center, XIC) 的控制。XIC内部包含两个功能上相互拮抗的关键长链非编码RNA基因:Xist(负责启动和维持X染色体沉默)和 Tsix(Xist 的反义转录本,抑制XCI)。这两个基因所在的区域形成了两个拓扑关联结构域 (Topologically Associated Domains, TADs),即 Xist 结构域和 Tsix 结构域。研究者发现了一个惊人的现象:在早期胚胎(合子到8细胞)中,iXCI的调控似乎主要依赖于 Xist 结构域——该区域在父源Xp上表现出特异性的染色质开放。然而,随着谱系分化,尤其是在晚期囊胚阶段的TE和PE细胞中,调控的“重心”发生了转移:Xist 结构域的父源特异性开放减弱,而 Tsix 结构域则表现出强烈的母源Xm特异性开放。这表明,在胚外谱系中维持iXCI的机制,从早期依赖印记的 Xist 表达,转变成了后期依赖印记的 Tsix 表达来抑制母源Xm上的 Xist。
EPI中的“唤醒”信号:与TE和PE细胞形成鲜明对比的是,在晚期囊胚的EPI细胞中,Xist 和 Tsix 结构域的染色质可及性在父源和母源X染色体之间趋于平衡。虽然 Tsix 结构域仍有轻微的母源偏向,显示iXCI的擦除还不完全,但这清晰地反映了父源Xp开始重新激活的信号,为后续建立随机XCI做准备。
非规范印记的普遍性与动态性:除了X染色体,研究者还利用等位基因分析研究了常染色体上的非规范印记 (noncanonical imprinting) 现象——即不依赖于DNA甲基化,而是通过母源遗传的组蛋白修饰(如H3K27me3)导致父源等位基因优先表达。他们发现在早期胚胎中存在大量这样的印记基因(在8细胞阶段鉴定出 325个,其中 317个 是父源优先开放),并且这种印记现象随着发育的进行逐渐减弱,尤其是在囊胚阶段显著减少。这揭示了非规范印记在早期发育中的普遍性及其动态调控特征。
通过对X染色体和常染色体印记的精细刻画,这项研究不仅揭示了iXCI调控机制从 Xist 到 Tsix 的动态转换,也展现了早期胚胎中表观遗传印记的广泛性和动态性,为我们理解基因剂量补偿和亲本基因组贡献的调控机制提供了新的视角。
在我们的基因组中,除了编码蛋白质的基因,还存在着大量看起来杂乱无章的重复序列 (repetitive elements)。它们就像基因组中的“暗物质”,一度被认为是无用的“垃圾DNA”。然而,越来越多的证据表明,这些重复序列远非“垃圾”,它们在基因调控、染色质结构乃至物种进化中都扮演着意想不到的重要角色。据估计,小鼠基因组中约有45%是由重复序列构成的。
解析这些重复序列的功能一直是个巨大的挑战,因为它们数量庞大、序列高度相似,传统的短读长测序技术很难将读取到的短片段精确地映射到基因组中某一个特定的重复拷贝上。这就像试图区分成千上万个长得几乎一模一样的士兵一样困难。然而,scNanoATAC-seq2的长读长特性恰好克服了这一难题,它能够读取足够长的DNA片段,跨越重复区域,并利用其两端独特的“邻居”序列信息,准确地识别和定位每一个重复序列拷贝。
利用这一优势,研究者们首次在单拷贝分辨率下,系统地描绘了小鼠早期胚胎中各类重复序列的染色质可及性动态:
不同家族的“作息时间表”:研究发现,不同类型的重复序列(如SINEs, LINEs, LTRs)在早期发育中有着不同的“活跃时间”。例如,长散在核元件-1 (Long Interspersed Nuclear Element-1, LINE1) 在合子时期较为开放,但在2细胞阶段急剧关闭,之后从桑葚胚开始缓慢地重新开放。而LINE2的激活则发生在更晚的4细胞阶段。长末端重复序列 (Long Terminal Repeats, LTRs),特别是其中的内源性逆转录病毒 (Endogenous Retrovirus, ERV) 家族成员,则表现出更复杂的动态。
LINE1的“潜伏与激活”:研究者特别关注了全长LINE1元件,它们包含有启动子和编码逆转录所需蛋白的开放阅读框,理论上具有“移动”(转座)到基因组新位置的潜力。尽管在从合子到桑葚胚的大部分时间里,绝大多数(超过16,000个)全长LINE1都处于被抑制的“潜伏”状态,但研究者精确地识别出了 157个 拷贝被显著激活(染色质变得开放)。有趣的是,这些被激活的LINE1更倾向于分布在基因组中相对开放、活跃的“A区室”(euchromatin,常染色质),而被抑制的LINE1则主要位于更为致密、不活跃的“B区室”(heterochromatin,异染色质)。这种分布偏好性(A区室激活比例是B区室的4.3倍)以及与进化上更年轻的LINE1亚家族的关联,暗示了LINE1的激活可能受到染色质环境的严格筛选。通过长读长测序,研究者甚至能区分开两个序列相似度高达99.68%的LINE1拷贝,在8细胞阶段它们却展现出截然不同的染色质开放状态,这是短读长技术无法做到的。
MERVL的“C位”时刻与顺式调控作用:鼠内源性逆转录病毒-L (Murine Endogenous Retrovirus-L, MERVL) 是ERV家族的一员,已知在2细胞胚胎的ZGA中扮演重要的“顺式调控”(cis-regulatory)角色,即激活其邻近基因的表达。scNanoATAC-seq2的数据证实,MERVL元件的平均染色质可及性在晚期2细胞阶段达到顶峰,随后逐渐下降,在囊胚阶段基本消失。更精细的分析显示,是MERVL两端的长末端重复序列(LTR, 具体为MT2-Mm亚家族)区域表现出强烈的开放特征,而其内部编码区则相对关闭,这清晰地揭示了其作为调控元件的结构基础,这种细节在短读长数据中不甚明显。同样,研究者也发现了序列高度相似(98.24%)的两个MERVL拷贝在2细胞阶段具有不同的开放模式。
重复序列的“指挥”能力:为了验证重复序列染色质状态的变化是否真的与其调控功能相关,研究者考察了ZGA期间,重复序列的开放程度、它们与邻近基因启动子的距离,以及这些邻近基因的表达变化之间的关系。结果发现,对于主要的重复序列类别(如LINE1和ERVL),其开放程度越高、距离基因启动子越近,则该基因在ZGA期间表达上调的可能性就越大。这为重复序列通过“活性-接触”(activity-by-contact, ABC)模型发挥顺式调控作用提供了有力证据。例如,与那些开放的MERVL拷贝邻近的基因,如 Sp110, Sp140, Zscan4c, Zscan4d,在ZGA期间表达显著上调;而那些与关闭的MERVL拷贝邻近的基因,如 Fam172a, Kifc3, Neol,则没有表现出明显的表达变化。
这些发现彻底改变了我们对基因组“暗物质”的看法。重复序列不再是基因组中的“沉默的大多数”,而是早期胚胎发育基因调控网络中活跃的、不可或缺的参与者。scNanoATAC-seq2的长读长优势使我们能够以前所未有的精度解读它们的动态行为和潜在功能。
“克隆军团”的秘密:相似基因如何协同作战?
除了重复序列,基因组中还存在另一类特殊的“相似单元”——旁系同源基因 (paralogous genes)。它们通常是由于基因复制事件产生的,因此在序列上非常相似,有时甚至难以区分。这些基因往往形成家族,协同执行相似或相关的生物学功能。在小鼠早期发育中,一些关键的旁系同源基因家族,如 Obox 家族(调控ZGA)、Zscan4 家族(与2细胞胚胎维持和ZGA相关)、Tcstv 家族(2细胞胚胎特异表达)以及 Eif1a-like 基因(翻译相关)等,都发挥着重要作用。
然而,正是由于它们序列的高度相似性,使用传统的短读长测序技术来研究它们各自的表达和调控状态也面临着巨大的挑战。短读长片段往往无法明确地区分这些“克隆”成员,导致它们的信号混杂在一起。
scNanoATAC-seq2的长读长特性再次展现了其威力。通过读取更长的DNA片段,它不仅能覆盖基因的编码区,还能包含旁边的非编码区(如内含子、启动子、增强子等),这些区域的序列差异往往比编码区更大,为区分不同的旁系同源基因提供了宝贵的“指纹”信息。
研究者们以 Zscan4 基因家族为例,展示了这项技术的优势:
精确区分“克隆”成员:小鼠基因组中有多个 Zscan4 基因和假基因(失去功能的基因拷贝)。研究者首先利用包含基因体及其周围区域的长序列信息,对这些成员进行了基于序列相似性的聚类分析。这种基于长序列的聚类,比仅仅基于编码区的聚类更能反映它们在调控上的亲缘关系。
揭示渐变调控模式:当按照序列相似性对 Zscan4 家族成员进行排序后,研究者发现,无论是在RNA表达水平(利用已发表的单细胞RNA测序数据)还是在染色质可及性水平(来自scNanoATAC-seq2数据)上,都呈现出一种有趣的“渐变”模式。也就是说,序列越相似的成员,它们的表达水平和染色质开放程度也越接近。这表明,这些旁系同源基因可能受到相似但又有细微差别的调控机制控制。
发现隐藏的调控元件:在晚期2细胞这个ZGA的关键时期,scNanoATAC-seq2清晰地揭示了几乎每一个 Zscan4 旁系同源基因内部一个关键内含子区域的染色质开放,这个区域被认为是重要的调控元件 (CRE)。然而,由于这个区域的序列在不同拷贝间高度重复,短读长ATAC-seq数据很难准确地将其解析出来。此外,对于 Zscan4b 和 Zscan4e,scNanoATAC-seq2还检测到它们下游LTR重复序列区域的开放信号,这些信号同样被短读长数据所忽略。
验证基因家族协同激活:研究者对另一个ZGA相关的旁系同源基因家族 Tcstv 进行了类似的分析,也成功地利用scNanoATAC-seq2数据精确描绘了家族内各个成员的染色质开放状态,证实了它们在ZGA期间的协同激活。
这项研究表明,scNanoATAC-seq2技术为深入研究旁系同源基因家族的复杂调控提供了可能。它不仅能帮助我们区分这些序列相似的基因,还能揭示它们各自独特的染色质状态和调控元件,从而更好地理解这些“基因军团”如何在早期发育的关键时刻协同作战,共同执行重要的生命功能。
从蓝图到生命:破译早期发育密码的里程碑
生命之初的几天,是决定个体命运的关键时期。一个单细胞如何有序地分裂、分化,最终形成具有复杂结构的胚胎,这背后隐藏着一套精密无比的基因调控程序。长期以来,由于技术限制,我们对这套程序的理解,特别是表观遗传层面的调控细节,一直如同“雾里看花”。
而这项利用创新的scNanoATAC-seq2技术完成的研究,无疑是我们在破译早期发育密码征程上迈出的里程碑式的一步。它为我们呈现了一幅前所未有的小鼠胚胎发育早期(从合子到囊胚)单细胞分辨率的染色质可及性全景图。
这项研究的重大意义体现在以下几个方面:
技术突破,赋能探索:scNanoATAC-seq2技术的开发和应用,证明了即使面对极其稀有、动态变化的细胞样本(如早期胚胎),我们也能通过长读长测序获得高质量的单细胞表观遗传信息。这为研究其他类似的发育过程或稀有细胞群体(如干细胞分化、肿瘤异质性细胞)开辟了新的道路。
绘制高清“地貌图”:研究系统地描绘了10个关键发育阶段、11种细胞类型的染色质开放“地貌”,鉴定出数十万个潜在的调控元件,并揭示了它们在ZGA、谱系分化等过程中的动态变化。这为理解早期发育的基因调控网络提供了宝贵的资源库。
揭示关键“指挥官”:研究系统性地识别了在每个发育阶段和细胞谱系中可能发挥关键作用的转录因子,并描绘了它们的活性动态。特别是发现了关键转录因子基因自身的开放与其下游靶点开放之间的同步性(有时甚至存在时间差),揭示了调控网络的层级性和时序性。
阐明XCI精妙机制:通过对雌性胚胎X染色体的等位基因特异性分析,研究首次揭示了iXCI调控从早期依赖 Xist 结构域到晚期(胚外谱系)依赖 Tsix 结构域的精妙转换机制,深化了我们对基因剂量补偿的理解。
点亮“基因组暗物质”:长读长测序的优势使得研究能够以前所未有的精度解析重复序列的染色质状态,证实了它们(如LINE1, MERVL)在早期发育,特别是ZGA中的活跃参与和潜在的顺式调控功能,为理解这些长期被忽视的基因组成分提供了新的视角。
区分“克隆军团”:该技术成功区分了序列高度相似的旁系同源基因(如 Zscan4, Tcstv),揭示了它们各自的染色质状态和协同激活模式,为研究基因家族的功能和进化提供了新工具。
总而言之,这项研究就像是为我们解码生命之初的“黑匣子”提供了一把金钥匙。它不仅展示了前沿技术的强大威力,更重要的是,它揭示了早期胚胎发育过程中表观遗传调控的诸多新机制和新规律,让我们对生命如何从一个简单的蓝图(DNA)一步步构建成复杂的个体,有了更深刻的理解。这不仅满足了我们对生命起源的好奇心,也为未来研究发育相关疾病、探索再生医学策略奠定了重要的理论基础。
生命乐章的序曲已经奏响,而科学的探索永无止境,我们期待着未来能听到更多关于生命奥秘的华美篇章。
参考文献
Li M, Jiang Z, Xu X, Wu X, Liu Y, Chen K, Liao Y, Li W, Wang X, Guo Y, Zhang B, Wen L, Kee K, Tang F. Chromatin accessibility landscape of mouse early embryos revealed by single-cell NanoATAC-seq2. Science. 2025 Mar 28;387(6741):eadp4319. doi: 10.1126/science.adp4319. Epub 2025 Mar 28. PMID: 40146829.
责编|探索君
排版|探索君
转载请注明来源于【生物探索】
声明:本文仅用于分享,不代表平台立场,如涉及版权等问题,请尽快联系我们,我们第一时间更正,谢谢!
来源:生物探索一点号1