摘要:我们知道某些基因(编码区)是构建生命的关键章节,但对那些占基因组98%以上、曾被误解为“垃圾DNA”的非编码区,却知之甚少。近年来,全基因组关联研究 (Genome-Wide Association Studies, GWAS) 的浪潮为我们揭示了一个惊人的事
我们知道某些基因(编码区)是构建生命的关键章节,但对那些占基因组98%以上、曾被误解为“垃圾DNA”的非编码区,却知之甚少。近年来,全基因组关联研究 (Genome-Wide Association Studies, GWAS) 的浪潮为我们揭示了一个惊人的事实:超过90%与常见疾病相关的遗传变异,都潜伏在这些广阔的非编码“无人区”。它们如同一群神秘的幕后操纵者,通过调控基因的表达,在暗中左右着我们的健康与疾病。
这些变异究竟是如何“发号指令”的?一个微小的碱基替换,如何能掀起一场细胞内的风暴,最终导致癌症或自身免疫病的发生?要回答这个问题,我们必须能够同时“看到”一个细胞内的两样东西:它的遗传密码 (基因型, Genotype) 和它的实时活动状态 (表型, Phenotype),尤其是基因表达的水平。然而,想在成千上万个细胞中,为每一个细胞都精准地建立起这种“基因型-表型”的联系,其技术难度不亚于在喧闹的音乐会现场,分辨出每一个乐手所演奏的每一个音符,并判断这个音符是否偏离了乐谱。
现有的技术,如CRISPR筛选,虽然能告诉我们敲除某个基因或调控元件会发生什么,但它们往往忽略了由单个碱基变异引发的精细变化。而另一些高通量的报告基因实验,则脱离了基因组的真实环境,像是在实验室里模拟一场永远无法完全复刻真实战况的沙盘推演。我们需要一种更强大的工具,一种能够深入到单个细胞内部,像一位贴身侦探,同时记录下DNA上的“作案指令”和RNA所呈现的“作案现场”。
9月1日,《Nature Methods》的研究报道“Functional phenotyping of genomic variants using joint multiomic single-cell DNA–RNA sequencing”,为我们带来了这样一把利器。研究人员开发了一种名为 SDR-seq (single-cell DNA–RNA sequencing)的新技术,它巧妙地实现了在数千个单细胞中,同时、高灵敏度地分析基因组DNA的变异和相应基因的RNA表达。这不仅仅是一次技术的突破,更像是一次“窃听”能力的飞跃,让我们有机会首次清晰地听到DNA密码中那些曾经被噪音淹没的窃窃私语。
想象一下,你想了解一位厨师的厨艺。你既需要看他的独家食谱 (DNA),也需要品尝他当下正在烹饪的菜肴 (RNA)。如果食谱和菜肴来自不同的时间和厨房,你就很难判断食谱中的某个精细调整是否真的改变了菜肴的风味。SDR-seq的核心思想,就是为每个细胞打造一间独立的“厨房包厢”,让它的DNA和RNA能够“同桌共餐”,从而建立起最直接的联系。
这个过程巧妙地结合了多个技术环节,如同一次精心编排的多幕剧。
第一幕:温柔的“定格”
首先,研究人员需要将细胞从生命活动中“定格”下来,同时保护好它们内部脆弱的DNA和RNA分子。他们比较了两种固定剂:常用的多聚甲醛 (paraformaldehyde, PFA) 和一种名为乙二醛 (glyoxal) 的试剂。PFA虽然能很好地固定细胞结构,但它像强力胶一样,会在分子间形成交联,可能损伤DNA和RNA的质量。而乙二醛则更为温和,它不会形成这种交联,从而有望获得更灵敏的信号。在最初的概念验证 (proof-of-principle, POP) 实验中,研究人员在人诱导多能干细胞 (human induced pluripotent stem cells, iPSCs) 中同时靶向了28个基因组DNA (gDNA) 位点和30个基因 (RNA) 的转录本。结果显示,与PFA相比,使用乙二醛固定的细胞,其RNA的检出率和每个转录本的独特分子标识 (Unique Molecular Identifier, UMI) 覆盖度都更高,这证明了这种温和固定方法的优越性。
第二幕:巧妙的“条码化”
细胞被固定并通透化后,好戏才真正开始。研究人员在细胞原位进行逆转录 (in situ reverse transcription, RT),将RNA分子转换成更稳定的互补DNA (cDNA)。这个过程的巧妙之处在于,他们使用的引物上预先设计了一系列“条码”:包括一个用于区分不同RNA分子的UMI,以及一个用于区分不同实验批次或样本的样本条码 (sample barcode, BC)。这样一来,每一个新生成的cDNA分子,都带上了独一无二的身份信息,就像是为每道菜都贴上了“某厨房、某厨师、第几道菜”的标签。
第三幕:微流控的“单间”
接下来,这些经过预处理的细胞被送入一个名为Tapestri的微流控平台。在这个平台中,细胞被包裹进一个个微小的油滴里,每个油滴中通常只含有一个细胞。这为每个细胞创造了一个独立的反应“单间”,确保后续的DNA和RNA扩增都发生在这个细胞内部,避免了细胞间的交叉污染。这就像是为每位厨师和他的菜肴提供了一个私密的厨房,保证我们最终品尝到的,就是这位厨师用他那本食谱做出的菜。
第四幕:同步的“扩音”与独特的“分流”
在油滴这个“单间”内,细胞被裂解,释放出基因组DNA和刚刚生成的cDNA。随后,一场大规模的多重PCR (multiplexed PCR) 同步上演,同时对预先设定的gDNA靶点和cDNA靶点进行指数级扩增,如同用扩音器将微弱的信号放大。
这里隐藏着SDR-seq技术中最核心的设计之一。研究人员为扩增gDNA和RNA的引物设计了不同的“接头” (overhangs)。用于gDNA的引物带有一个名为R2N的接头,而用于RNA的引物则带有R2接头。这个看似微小的差异,却为后续的文库构建和测序打开了一扇方便之门。当所有PCR产物被收集起来后,研究人员可以利用这些不同的接头,将gDNA和RNA的产物分流,为它们分别构建测序文库。这使得他们可以根据需要对两种文库进行不同深度的测序——对gDNA进行全长深度测序以确保准确识别每一个变异,同时对RNA进行足以定量基因表达的测序。
经过这一系列精密操作,研究人员成功地从一次SDR-seq实验中获得了大约9,000个高质量的iPS细胞数据。他们将这些单细胞的基因表达数据“伪合并”成一个整体,并与传统的批量RNA测序 (bulk RNA-seq) 数据进行比较。结果令人振奋:两者表现出高度的一致性,皮尔逊相关系数的平方值 (r²) 达到了0.85以上,这有力地证明了SDR-seq在RNA定量方面的准确性。同时,通过物种混合实验(将人类细胞和小鼠细胞混合处理),他们证实了该方法中细胞间的核酸交叉污染率极低,gDNA的污染率低于0.16%,RNA的污染也处于非常低的水平 (0.8-1.6%),确保了数据的纯净和可靠。
SDR-seq是否能从最初靶向几十个位点的“小酌”,扩展到能够同时分析成百上千个靶点的“盛宴”呢?这是决定其能否成为主流研究工具的关键。
为了回答这个问题,研究人员设计了一场雄心勃勃的规模递增实验。他们在iPS细胞中设计了三个不同规模的靶向组合 (panels):一个120靶点的“小型宴”,一个240靶点的“中型宴”,以及一个高达480个靶点的“大型宴”。每个组合中,gDNA和RNA的靶点数量各占一半。为了确保不同规模实验间的可比性,他们巧妙地让一部分靶点在三个组合中共享。
基因组DNA的稳健探测
结果再一次超出了预期。即使在最大规模的480靶点组合中,SDR-seq依然表现出色。总体来看,在所有组合中,约80%的gDNA靶点能够在超过80%的细胞中被稳定地检测到。更重要的是,对于那些共享的gDNA靶点,它们在不同规模组合中的检出率和测序深度 (覆盖度) 表现出极高的相关性。例如,480靶点组合与120靶点组合相比,共享靶点的检出率相关系数的平方值为0.85,覆盖度的相关系数平方值为0.78。这表明,增加靶点数量并不会显著牺牲对单个靶点的检测效率。SDR-seq的这种可扩展性,就像一个技艺高超的宴会承办方,无论是准备一桌家宴还是操办一场国宴,都能确保每一道菜品的质量。
研究人员还进一步探索了染色质环境是否会影响gDNA的检测。他们特意选择了一些位于正在活跃表达的基因 (Overlapping Expressed Genes, OEGs) 内部的靶点,以及一些位于基因间“沉默”区域 (Not OEGs, NOEGs) 的靶点,同时还考虑了不同的染色质开放状态和组蛋白修饰。结果发现,无论靶点位于何处,其检测效率都没有显示出系统性的差异。这意味着SDR-seq具有很好的普适性,能够穿透复杂的染色质结构,公平地捕捉到基因组上不同区域的信息。
基因表达的灵敏捕捉
在RNA方面,SDR-seq同样展现了强大的可扩展性。共享基因的检出率和表达量在不同规模的组合间也高度相关,其相关系数的平方值甚至超过了0.93。这说明该技术在进行更大规模的筛选时,依然能够提供灵敏且准确的基因表达谱。
攻克单细胞基因组学的“顽疾”
在单细胞DNA测序领域,一个长期存在的“顽疾”是等位基因脱扣 (Allelic Dropout, ADO)。简单来说,对于一个杂合位点(即来自父母的两条染色体在该位点有不同的碱基),理想情况下我们应该在测序中同时看到两种等位基因。但由于技术限制,常常只检测到其中一种,这就造成了ADO,使得我们无法准确判断该细胞的基因型。在许多已有的高通量单细胞DNA-RNA联合测序技术中,ADO率高得惊人,常常超过96%,这使得准确判断变异的合子性 (Zygosity,即纯合还是杂合) 变得几乎不可能。
而SDR-seq在这方面取得了决定性的突破。研究人员利用已知的iPS细胞中的杂合性单核苷酸多态性 (heterozygous single-nucleotide polymorphisms) 位点进行评估。结果显示,在那些被高效检测到的扩增子中,SDR-seq能够在平均87-94%的细胞中正确地鉴定出杂合变异。这一数据,与那些ADO率高于96%的技术相比,是天壤之别。它意味着SDR-seq终于让我们有能力在成千上万的单细胞中,可靠地区分一个变异是纯合的还是杂合的,这对于理解基因剂量效应和疾病机制至关重要。
拥有了一把能够同时观察基因型和表型的利器,研究人员自然要将它应用到最能体现其价值的领域——功能基因组学。他们巧妙地将SDR-seq与强大的CRISPR基因编辑技术相结合,试图直接回答那个终极问题:一个特定的DNA变异,到底会对基因表达产生什么样的影响?
CRISPR干扰:验证RNA读数的灵敏性
首先,他们进行了一项CRISPR干扰 (CRISPR interference, CRISPRi) 实验。CRISPRi技术就像一个可编程的“基因静音器”,可以抑制特定基因或调控元件的活性。研究人员设计了一系列导向RNA (guide RNAs, gRNAs),分别靶向一些已知的表达数量性状基因座 (expression quantitative trait loci, eQTLs,即影响基因表达水平的遗传位点),以及这些eQTLs所调控基因的转录起始位点 (Transcription Start Site, TSS)。
实验结果清晰地展示了SDR-seq的灵敏度。当gRNA靶向TSS时,高达95%的靶基因表达水平出现了显著的强烈下调,这符合预期。更重要的是,在29个被测试的eQTLs中,有7个 (约24%) 也导致了靶基因表达的显著降低。这证明SDR-seq的RNA检测部分足够灵敏,能够捕捉到由调控元件活性改变而引发的、有时可能较为微妙的基因表达变化。
精准编辑:直击变异的功能后果
接下来,他们挑战了更为精细的任务:利用更先进的碱基编辑 (Base Editing, BE) 和先导编辑 (Prime Editing, PE) 技术,在细胞中引入特定的、单个碱基的eQTL变异,然后用SDR-seq来观察后果。
实验过程中,研究人员坦诚地指出了一个挑战:在他们使用的iPS细胞体系中,这些精准编辑技术的效率有限。这恰恰凸显了SDR-seq的独特优势。对于传统的批量分析方法,低下的编辑效率会使得真实的信号被大量未编辑的细胞所淹没,导致结果难以解读。但SDR-seq能够在单细胞水平上进行分析,它能直接将那些真正被成功编辑的细胞(无论它们多么稀少)筛选出来,并只在这些细胞中分析基因表达的变化。
就在这个实验中,他们有了一个意想不到的重大发现。在对多能性关键转录因子POU5F1(也称为Oct4)的研究中,SDR-seq揭示了一个有趣的现象。他们发现,在POU5F1基因3'非翻译区的一个同义变异 (synonymous variant),与该基因的表达水平显著相关。这个变异并非他们有意引入的,而是在iPS细胞长期培养过程中自发累积产生的体细胞突变。通过对这个位点进行批量的扩增子测序,他们证实了这个变异的存在。
这个发现极具启发性。它告诉我们,在功能研究中,不能简单地假设“我引入了什么编辑,细胞就发生了什么变化”。细胞自身也在不断演变。如果没有SDR-seq这样能够在同一个细胞内直接读取基因型和表型的工具,这个自发的、但功能上很重要的变异很可能会被忽略,或者它的效应会被错误地归因于研究人员引入的其他编辑。SDR-seq让我们能够拨开这些实验过程中的迷雾,直达问题的核心。
为了证明SDR-seq不仅能用于经过基因工程改造的细胞系,还能解决真实的临床问题,研究人员将目光投向了B细胞淋巴瘤 (B cell lymphoma),一种由B淋巴细胞恶性增殖引起的异质性癌症。肿瘤的发生和演进,本质上就是一个由基因变异驱动的克隆演化过程。在同一个肿瘤内部,不同的癌细胞群体 (克隆) 可能携带不同的突变,并处于不同的分化状态,这种瘤内异质性是导致治疗失败和复发的重要原因。
研究人员从三名患者身上获取了原代肿瘤样本,包括两例滤泡性淋巴瘤 (follicular lymphoma) 和一例生发中心亚型的弥漫大B细胞淋巴瘤 (germinal center subtype diffuse large B cell lymphoma)。他们根据已知的肿瘤突变信息,设计了一个靶向的gDNA组合,并结合了一个能够反映B细胞成熟状态和肿瘤特征的RNA组合,然后对每个样本的数千个细胞进行了SDR-seq分析。
绘制肿瘤的“身份地图”
SDR-seq强大的双重解析能力,首先让他们能够轻松地将肿瘤样本中的细胞进行分类。仅根据基因变异信息,他们就能清晰地将恶性的B细胞与样本中混杂的正常非B细胞(如T细胞、基质细胞)区分开来。同样,仅根据基因表达谱,也能得到相似的细胞分群结果。这就像是同时通过指纹 (基因变异) 和相貌 (基因表达) 两种方式,为肿瘤中的每一个“居民”进行了身份认证。
追踪克隆的演化轨迹
更有趣的是,研究人员将这些癌细胞映射到了正常B细胞成熟过程中的不同阶段,主要是生发中心 (germinal center) 的两个关键区域:暗区 (Dark Zone, DZ) 和亮区 (Light Zone, LZ)。B细胞正是在这两个区域之间穿梭,经历体细胞高频突变 (somatic hypermutation) 和选择,从而成熟。
通过SDR-seq,他们发现,在肿瘤内部,不同的基因突变组合定义了不同的癌细胞克隆。而这些遗传上不同的克隆,在DZ和LZ这两个功能状态中的分布比例也存在差异。例如,在FL2号样本中,一个主要克隆 (Clone 1) 的细胞绝大多数处于DZ状态,而另一个克隆 (Clone 2) 则在LZ状态中占有更高的比例。这有力地表明,肿瘤的克隆演化 (基因突变的累积) 和细胞的分化 (功能状态的转变) 是两个相互关联但又可以区分开的过程。癌细胞在获得新的突变后,仍然会继续在不同的功能状态间转换,而这些突变本身,可能就会影响它们转换的速率或倾向。
揭示突变负荷与肿瘤信号通路的关联
最后,研究人员提出了一个核心问题:这些不断累积的基因变异,究竟如何赋予癌细胞生存优势?他们比较了那些携带了大量杂合 (HET) 和纯合变异 (ALT) 等位基因的“高突变负荷”细胞,与那些突变较少的“低突变负荷”细胞。
分析结果揭示了一条惊人的线索。他们发现,无论是在DZ还是LZ状态,高突变负荷的细胞都普遍表现出更高水平的B细胞受体 (B cell receptor, BCR) 信号通路和致瘤相关基因的表达。BCR信号通路对于B细胞的生存至关重要,它的异常激活可以抑制细胞凋亡。在正常的B细胞成熟过程中,如果一个B细胞在LZ区不能成功结合抗原,它就会启动凋亡程序被清除。而SDR-seq的数据暗示了一种可能的肿瘤逃逸机制:癌细胞通过累积大量的基因突变,上调了BCR信号,从而获得了“不死之身”,即使在没有抗原刺激的情况下也能持续存活和增殖。这一发现,完美地将细胞的遗传状态 (高突变负荷) 与功能状态 (高生存信号和致瘤潜能) 在单细胞水平上直接联系了起来,为我们理解淋巴瘤的致病机理和演化动力学提供了全新的视角。
从GWAS研究中发现海量的疾病相关位点,到理解每一个位点背后的生物学功能,我们走过了一条漫长而曲折的道路。过去,我们常常依赖于统计学上的“关联”,就像是站在山顶,看到远方某片森林 (基因组区域) 上空有炊烟升起 (疾病信号),便推测那里可能有人家 (致病变异)。但我们无法确定是哪一棵树下的哪一户人家在生火,也无法知道他们是在做饭还是在放火。
SDR-seq技术的出现,为我们提供了一个前所未有的新“罗盘”。它不仅能将我们精确地导航到那片森林,还能让我们直接走进每一户人家,亲眼看到他们的炉灶 (基因型) 和锅里煮着的食物 (基因表达)。它将我们从宏观的、概率性的关联,带入了微观的、几乎是因果的联系中。
这项技术的强大之处在于它的可扩展性、灵敏度和内生性。它可以在一个内生的、未经人为干扰的基因组环境中,系统性地研究成百上千个编码和非编码变异的功能,其通量比传统的低通量方法提高了近百倍,同时,其对等位基因的准确判断能力又远超其他高通量方法。
当然,正如研究中所展示的,SDR-seq的应用潜力远不止于此。未来,它可以与其他单细胞组学技术进一步结合,比如在分析DNA和RNA的同时,检测细胞表面的蛋白质 (蛋白质组学) 或DNA的甲基化状态 (表观遗传组学),从而构建起一幅更加立体和全面的细胞功能图景。我们甚至可以用它来追踪基于线粒体DNA突变的细胞谱系,绘制出组织发育和肿瘤演化的精细“家谱”。
我们正处在一个生物学研究范式变革的时代。以SDR-seq为代表的新技术,正在将我们从对生命系统的静态描述,引向对其动态调控的深刻理解。那些曾经在基因组“暗物质”中窃窃私语的DNA密码,如今,它们的声音正变得前所未有地清晰。而我们,终于有了一对能够倾听和解读这些密语的耳朵。
参考文献
Lindenhofer, D., Bauman, J.R., Hawkins, J.A. et al. Functional phenotyping of genomic variants using joint multiomic single-cell DNA–RNA sequencing. Nat Methods (2025). https://doi.org/10.1038/s41592-025-02805-0
声明:本文仅用于分享,不代表平台立场,如涉及版权等问题,请尽快联系我们,我们第一时间更正,谢谢!
来源:生物探索一点号1