Nature Genetics | 90分钟锁定白血病分子身份:实时表观基因组学重塑诊断新范式

B站影视 日本电影 2025-09-24 18:25 1

摘要:当生命的时钟被无情地拨快,每一秒都显得弥足珍贵。对于急性白血病 (acute leukemia)患者而言,这不仅仅是一个比喻。这是一种侵袭性极强的血液肿瘤,癌细胞如潮水般涌入骨髓和血液,迅速瓦解身体的造血和免疫系统。在临床上,医生们面临着一场与时间的赛跑:必须

当生命的时钟被无情地拨快,每一秒都显得弥足珍贵。对于急性白血病 (acute leukemia)患者而言,这不仅仅是一个比喻。这是一种侵袭性极强的血液肿瘤,癌细胞如潮水般涌入骨髓和血液,迅速瓦解身体的造血和免疫系统。在临床上,医生们面临着一场与时间的赛跑:必须尽快、且无比精确地为患者制定治疗方案。然而,传统的诊断流程,尽管被视为“金标准”,却往往像一部繁琐而缓慢的老式机器,需要数天甚至数周才能拼凑出疾病的全貌。这宝贵的时间窗口,可能就此与最佳的治疗时机失之交臂。

急性白血病远非一种单一的疾病,它是一个由众多分子亚型构成的复杂“家族”,每个成员都有其独特的“个性”,不同的遗传突变、细胞起源和预后。错误的分类,可能意味着治疗方案的南辕北辙。我们能否找到一种方法,绕开传统诊断的漫长等待,像一位经验丰富的侦探,仅凭蛛丝马迹,就能在几小时内迅速锁定“罪犯”的真实身份?

这个问题的答案,或许隐藏在细胞核深处,一个比基因序列 (Genetics)更动态、更微妙的层面——表观遗传学 (Epigenetics)

9月22日,《Nature Genetics》的研究报道“Rapid epigenomic classification of acute leukemia”,为我们带来了一个振奋人心的答案。研究人员,开发出一种全新的框架,它将前沿的纳米孔测序技术 (nanopore sequencing)与强大的人工智能 (AI)相结合,试图在患者样本送达后的短短90多分钟内,完成对急性白血病的精准“画像”。这不仅仅是技术上的飞跃,更可能是一场重塑白血病诊断范式的革命。

想象一下,一位患者因不明原因的发烧、疲劳和出血点被紧急送往医院。血液检查显示异常,高度怀疑是急性白血病。此刻,诊断的“发令枪”正式打响。为了揭开疾病的真面目,病理学家和临床医生必须启动一套复杂而精密的“组合拳”。

首先是形态学检查 (morphology),在显微镜下观察骨髓涂片中癌细胞的“长相”。它们是原始的、幼稚的,还是有某种程度的分化?这提供了初步的线索。紧接着,流式细胞术 (flow cytometry)登场,利用荧光标记的抗体,检测细胞表面的“身份证”,各种蛋白质标记物,从而判断这些癌细胞属于哪个谱系:是髓系的急性髓系白血病 (AML),还是淋巴系的B细胞急性淋巴细胞白血病 (B-ALL)T细胞急性淋巴细胞白血病 (T-ALL)

但这还远远不够。为了更深层次的分类,细胞遗传学分析 (cytogenetics)核型分析 (karyotyping)荧光原位杂交 (FISH)被用来寻找染色体的大规模结构异常,比如易位或缺失。同时,分子遗传学检测,如靶向基因测序 (targeted gene sequencing),则会深入DNA层面,寻找那些关键的“拼写错误”——基因突变。

每一个步骤都至关重要,它们共同构成了一幅详尽的疾病地图,指导着治疗决策。例如,某种特定的基因融合 (gene fusion),如PML::RARA,预示着患者对全反式维甲酸(ATRA)和三氧化二砷治疗有极好的反应;而另一个突变,如TP53,则可能意味着预后不佳,需要更强化的治疗方案。

然而,这套“金标准”工作流程的致命弱点在于它的“慢”。这些检测通常是并行进行的,但每一步都需要专门的技术、设备和时间。形态学和流式细胞术或许能在一天内给出初步结果,但完整的核型分析和基因测序报告,尤其是在三级医疗中心,也常常需要数天到数周的时间。在这漫长的等待中,患者的病情可能急剧恶化,医生不得不在信息不完整的情况下,开始初步的“经验性”治疗。更棘手的是,即便完成了所有检测,现有的分类体系仍可能无法捕捉到白血病异质性 (heterogeneity)的全貌。有些罕见或“隐匿”的分子驱动因素,可能会在标准检测中成为“漏网之鱼”,从而限制了患者获得最适合疗法的机会。

这个困境,就像是在一条湍急的河流上搭建一座桥梁。我们需要它既坚固可靠(精准),又要以最快的速度建成(快速)。传统方法虽然坚固,但建造过程太慢。我们迫切需要一种全新的“建桥”技术,能够在保证质量的同时,极大地缩短工期。

如果说DNA序列是记录生命信息的“硬件”或“蓝图”,那么表观遗传学就是控制这些硬件如何运行的“软件”或“操作系统”。它不改变DNA序列本身,而是通过一系列化学修饰,来调控基因的开启与关闭。其中,DNA甲基化 (DNA methylation)是最重要、研究最深入的一种修饰。

想象一下,我们的基因组是一本厚厚的百科全书,每个基因是一个词条。DNA甲基化就像是在某些词条上贴上了一张“请勿翻阅”的便签。这些便签通常贴在一种叫做CpG位点的地方,即胞嘧啶(C)后紧跟着鸟嘌呤(G)的DNA片段。当一个基因的启动子区域(相当于词条的标题区域)被大量甲基化修饰后,这个基因就会被“沉默”,无法被读取和表达。

这种沉默机制对细胞的正常发育和功能至关重要。一个神经元和一个肝细胞拥有完全相同的基因组“百科全书”,但它们之所以形态功能迥异,正是因为不同的DNA甲基化模式,让它们各自翻阅和使用了书中不同的章节。因此,每个细胞类型的DNA甲基化图谱 (methylome)都像一枚独特的指纹,深刻地烙印着它的“出身”和“职业”。

当细胞发生癌变时,这套精密的“软件”系统会陷入混乱。癌细胞的DNA甲基化模式会发生剧烈而广泛的改变。一些原本应该沉默的促癌基因 (oncogene)可能被意外地去甲基化激活,而一些抑制肿瘤生长的基因 (tumor suppressor gene)则可能被异常地高度甲基化而关闭。这些改变并非随机发生,而是与肿瘤的起源细胞、驱动突变以及恶性行为密切相关。

更重要的是,相比于RNA或蛋白质这些相对“善变”的分子,DNA甲基化是一种非常稳定的化学标记。这使得它成为了一个理想的生物标志物 (biomarker),能够稳定地反映肿瘤的生物学特性。在神经肿瘤学 (neuro-oncology)领域,基于DNA甲基化的肿瘤分类已经取得了巨大成功,甚至被世界卫生组织(WHO)的分类标准所采纳,因为它能够比传统病理方法更准确地划分肿瘤亚型,预测预后。

那么,这个强大的工具能否应用于急性白血病这个同样复杂且异质的领域呢?研究人员认为,答案是肯定的。如果能绘制出一幅足够全面、精细的急性白血病“DNA甲基化地图”,我们或许就能开发出一种全新的分类语言。通过解读一个患者癌细胞的甲基化“指纹”,我们不仅能知道它来自哪个谱系(AML、B-ALL还是T-ALL),还能洞察其背后的分子驱动机制,甚至预测它的“行为模式”。这正是该研究的核心思想:从细胞的“第二套密码”中,寻找快速、精准诊断的钥匙。

要用一种新语言来解读事物,首先需要一本权威的“词典”或“罗塞塔石碑”。对于白血病的甲基化分类而言,这块“罗塞塔石碑”就是一个全面、多样化的参考队列 (reference cohort)。没有它,任何分类器都只是无源之水。因此,研究人员的第一项任务,就是构建一部前所未有的急性白血病DNA甲基化参考队列。

他们通过系统性地搜集和整理来自11个已发表研究的高质量数据,汇集了来自全球各地的2,540个样本。这个规模庞大的队列,如同一幅详尽的世界地图,涵盖了急性白血病的主要“大陆”和“岛屿”。其中包括1,461例急性髓系白血病 (AML)、686例B细胞急性淋巴细胞白血病 (B-ALL)、266例T细胞急性淋巴细胞白血病 (T-ALL),以及一些罕见的混合表型急性白血病 (MPAL)。这个队列不仅谱系全面,还兼顾了儿童(1,838例)和成人(702例)患者,确保了图谱的广泛代表性。

当研究人员运用t-SNE的降维可视化技术,将这些高维的甲基化数据投影到一个二维平面上时,一幅壮观的景象呈现在眼前。不同的白血病样本不再是杂乱无章的点,而是根据其内在的表观遗传相似性,自动聚集成了泾渭分明的“大陆”和“群岛”。AML、B-ALL和T-ALL这三大主要谱系,形成了三个清晰隔离的巨大板块,而每个板块内部,又展现出丰富的“地理”特征,连绵的“山脉”和孤立的“岛屿”,暗示着每个谱系内部同样存在着巨大的异质性。

基于这张“地图”,并结合已知的病理学和分子遗传学信息,研究人员最终定义了38个截然不同的DNA甲基化类别 (methylation classes)。这就像是在地图上标注出了38个不同的“国家”或“城邦”。其中,25个类别与先前研究中定义的亚型高度吻合,证明了这种分类方法的稳健性。更令人兴奋的是,他们还发现了9个前所未闻的全新甲基化类别,这表明表观遗传学的视角揭示了传统分类方法未能触及的疾病亚型。

那么,这本地图的“导航”功能如何?它与传统的免疫表型 (immunophenotype)谱系分类的吻合度有多高?结果令人信服。在2,249个有明确免疫表型数据的病例中,甲基化分类给出的谱系结论与传统方法在其中的2,189个病例中完全一致,符合率高达97.3%。对于AML、B-ALL和T-ALL,谱系符合率分别达到了96.7%、99.7%和98.4%。

然而,真正的价值往往体现在“标准答案”失灵的地方。对于那些谱系模糊、诊断困难的病例,甲基化分类展现出了非凡的“裁决”能力。例如,混合表型急性白血病 (MPAL),其癌细胞同时表达髓系和淋巴系的标记,是临床诊断的一大难题。在研究中,14例MPAL病例中,有10例被甲基化分析清晰地重新归类到了一个单一的谱系中。这表明,DNA甲基化模式更能反映细胞最核心、最本质的起源,而非其表面上摇摆不定的蛋白质表达。

更有趣的是,在少数谱系不符的病例中,甲基化分类往往揭示了更深层次的分子真相。例如,一些在免疫表型上被诊断为T-ALL的病例,其甲基化特征却指向了一个与PICALM::MLLT10基因融合相关的特定类别。而这种融合,恰恰是一种已知的、具有谱系模糊性的分子异常。在这种情况下,甲基化分类并非“错误”,而是更忠实地反映了疾病的遗传驱动核心,超越了传统谱系划分的局限。这就像一个人的口音暴露了他的故乡,这比他身上穿的衣服更能说明他的来源。

在白血病的“甲基化大陆”中,急性髓系白血病 (AML) 无疑是地形最复杂、最多样的一片区域。由于该研究的AML样本量(超过1400例)是任何先前甲基化研究的两倍以上,研究人员得以对这片“髓系群岛”进行一次前所未有的精细勘探。他们不仅确认了已知的分子亚型,还发现了8个新的甲基化类别,并对其他一些类别的定义进行了优化。

研究人员发现,AML的甲基化类别与已知的遗传驱动因素高度相关。例如,由特定基因融合(如PML::RARA、RUNX1::RUNX1T1、CBFB::MYH11)或基因突变(如CEBPA)定义的AML亚型,在甲基化图谱上都形成了高度聚集的、独特的“岛屿”。在这些遗传背景清晰的病例中,甲基化分类与基因分型的吻合率极高,例如,在超过95.5%的病例中,携带这些特定遗传异常的细胞都准确地落在了对应的甲基化类别里。

然而,表观遗传学的视角远不止于对已知遗传信息的简单重复。它揭示了基因之外的另一层调控逻辑。一个最典型的例子,就是围绕着一类名为HOX基因的AML亚型展开的。HOX基因在正常造血干细胞的自我更新和分化中扮演着“主控制器”的角色。在许多侵袭性AML中,HOX基因会被异常地高表达,成为驱动白血病发生的关键引擎。

研究人员发现,有九个独立的AML甲基化类别都与HOX基因的激活有关。这些类别被统称为“HOX激活型AML”。其中一些类别与已知的遗传驱动因素紧密相关,比如NPM1基因突变或KMT2A基因重排。这两类遗传异常都会导致HOX基因的异常激活,也是近年来备受关注的新药靶点,menin抑制剂的潜在适应症。

有趣的是,甲基化分析不仅能识别出这些由NPM1或KMT2A驱动的HOX激活型AML,还能对它们进行更精细的划分。例如,携带NPM1突变的AML,根据其伴随突变(如DNMT3A、TET2或IDH1/2)的不同,被清晰地分成了三个不同的甲基化亚组,这暗示了它们之间存在着不同的生物学行为和潜在的治疗反应。

更具突破性的是,甲基化分析能够识别出那些“身份不明”的HOX激活型AML。在其中一个被称为“HOXA/B激活第4组”的庞大类别中,有高达24.7%的样本(72例)没有检测到任何已知的、能够激活HOX基因的遗传驱动突变。然而,对这些样本的基因表达数据进行分析后发现,其中超过95%的病例都表现出强烈的HOX基因高表达。这意味着,它们的HOX基因确实被激活了,只是激活的机制是隐匿的、非典型的,无法被常规基因检测所捕获。在这种情况下,DNA甲基化图谱成为了一个强大而可靠的“代理指标”(proxy),直接反映了细胞的功能状态(HOX激活),而无需知道其背后的具体遗传原因。这对于临床实践意义重大,因为它可能为这部分“遗传阴性”的患者,打开了通往menin抑制剂等靶向治疗的大门。

此外,表观遗传分型还能为预后判断提供新的维度。以KMT2A基因重排的AML为例,这是儿童AML中常见的一种亚型。研究人员发现,携带KMT2A重排的AML可以被细分为多个不同的甲基化类别。当他们分析这些不同类别的患者生存数据时,发现了显著的差异。例如,在携带最常见的KMT2A::MLLT3融合的患者中,那些被归类为“HOXA激活第5组”(MECOM激活型)的患者,其生存预后明显差于被归类为“第7组”和“第8组”的患者。这表明,即使在相同的遗传背景下,不同的表观遗传状态也可能导致截然不同的临床结局。DNA甲基化,正在为我们揭示一层超越基因的、更精细的预后信息。

拥有了一部详尽的白血病甲基化“百科全书”固然重要,但如何在临床的紧急情况下,快速查询并找到正确答案,是另一个巨大的挑战。我们需要一个聪明的“图书管理员”,能够仅凭几页残缺的信息,就迅速定位到这本书在整个知识体系中的准确位置。这个“图书管理员”,就是研究人员开发的人工智能神经网络模型——MARLIN (Methylation- and AI-guided rapid leukemia subtype inference)

MARLIN面临的核心挑战,是如何在数据极其稀疏 (sparse)的情况下做出准确判断。传统的甲基化芯片分析可以一次性检测数十万个CpG位点,数据量非常丰富。但为了追求速度,研究人员采用的纳米孔测序技术在短时间内(例如,测序的最初几分钟到一小时),只能覆盖到基因组中一小部分的CpG位点。这就好比,我们想通过阅读一本书的几百个随机单词,来判断这本书是《哈姆雷特》还是《物种起源》。这对任何分类器都是一个严峻的考验。

为了让MARLIN学会在信息极度有限的情况下做出决策,研究人员采用了一种巧妙的训练策略。在每一次训练迭代中,他们会随机地“遮盖”掉输入数据中99%的CpG位点信息,只让MARLIN看到1%的“冰山一角”。这种被称为“dropout”的极端训练方法,迫使神经网络不能依赖于任何特定的CpG位点组合,而是必须学会识别和利用那些在不同白血病亚型之间最具区分度的、最核心的甲基化位点。经过反复的“盲人摸象”式训练,MARLIN最终掌握了从稀疏数据中提取关键特征的非凡能力。

MARLIN的性能究竟如何?研究人员通过严格的五折交叉验证 (fivefold cross-validation)对其进行了评估。结果显示,即便是在使用了全部CpG位点信息的“理想”情况下,MARLIN的表现也极为出色。它区分不同白血病谱系的F1分数(一种综合衡量精确率和召回率的指标)中位数高达0.99,区分38个精细甲基化类别的F1分数中位数也达到了0.91。

接下来是关键的压力测试:在模拟的稀疏数据下,MARLIN能否保持水准?研究人员逐步增加数据的稀疏度,来模拟不同深度的纳米孔测序。结果令人惊喜:即使数据稀疏度高达97%(相当于只使用了约10,720个CpG位点的信息),MARLIN对甲基化类别、家族和谱系的分类性能(F1分数)依然能保持在0.91、0.95和0.99的高水平。这充分证明,MARLIN已经学会了“以点概面”的本领,成功地将庞大的参考图谱,转化成了一个能够在信息碎片中快速导航的掌上利器。

为了进一步验证其泛化能力,研究人员还将MARLIN应用于多个独立外部队列的样本,这些样本采用了包括27k芯片、450k芯片、全基因组亚硫酸氢盐测序(WGBS)乃至纳米孔测序在内的不同技术平台。结果再次证明了MARLIN的强大。例如,在包含321个B-ALL和T-ALL样本的外部队列中,MARLIN对B-ALL和T-ALL的分类准确率分别达到了85.7%和92.3%。这一系列的验证工作,为MARLIN从实验室走向临床应用,奠定了坚实的基础。

所有的理论验证和回顾性分析,最终都要在真实的临床场景中接受终极考验。MARLIN能否在分秒必争的诊断一线,真正地改变游戏规则?研究人员将目光投向了真实的患者样本,进行了一系列回顾性和前瞻性的实战演练。

首先,他们对一个包含19例不同类型急性白血病患者的回顾性队列,进行了纳米孔测序和MARLIN分类。这些患者都拥有完整的传统诊断结果作为参照。结果激动人心:在16个MARLIN给出了高置信度(预测分数≥0.8)预测的病例中,有15个(93.8%)的分类结果与传统病理诊断完全一致。

更重要的是,MARLIN再次展现了其“超越”传统诊断的潜力。在一个被临床诊断为“B-ALL,非特指型”的病例中,MARLIN给出了一个极其明确且高分的预测:“DUX4重排型B-ALL”。这是一个恶性程度较高的亚型,其遗传重排非常隐匿,常规的细胞遗传学分析常常会漏掉。为了验证MARLIN的预测,研究人员对该样本进行了更深度的纳米孔测序,最终成功地在数据中找到了DUX4基因与免疫球蛋白重链(IGH)基因座发生易位的“断裂”读长 (split reads),证实了MARLIN的精准“洞察力”。

而将整项研究推向高潮的,是五例前瞻性 (prospective)实时 (real-time)分类。这些样本来自新入院的、高度疑似急性白血病的患者,MARLIN的分析与传统诊断流程同步进行,上演了一场真实的“速度与激情”。

第一个案例(RTC_001)是一位61岁的女性患者。她的样本在被采集后,立刻进行DNA提取和文库制备。从样本处理到开始纳米孔测序,总共花费了56分钟。测序开始后,数据被实时传输并由MARLIN进行分析。仅仅过了40分钟,MARLIN的预测分数就突破了0.8的置信度阈值,给出了一个明确的诊断:“AML,TP53/aneuploidy-enriched”(TP53突变/非整倍体富集型)。从样本送到实验室到获得这个高度特异性的分子诊断,总共用时96分钟。而另一边,传统的诊断流程才刚刚开始。直到4天后,基因测序和细胞遗传学分析结果才陆续返回,最终的临床诊断为“伴有TP53突变的AML”,并伴有复杂的核型异常——与MARLIN在不到两小时内给出的结论完全吻合。

第二个案例(RTC_002)同样令人印象深刻。这是一位62岁的男性患者,白细胞计数极高。样本处理和测序启动耗时55分钟。同样,在测序开始40分钟后,MARLIN给出了高置信度预测:“AML,HOXA/B激活第2组(NPM1/TET2富集型)”。从样本接收到出具分子诊断,总共耗时95分钟。三天后,常规的基因测序报告确认了患者携带NPM1、TET2以及FLT3-ITD突变,临床诊断为伴有NPM1突变的AML,其单核细胞分化的特征也与HOXA/B激活第2组的表型完全一致。

在这场真实的竞赛中,MARLIN以无可争议的表现证明了自己。它将原本需要数天乃至数周的等待,压缩到了短短一个半小时。这种速度上的颠覆性突破,为临床医生赢得了极其宝贵的决策时间,也为患者争取到了更早启动精准治疗的希望。

这项开创性的研究,为我们描绘了一幅急性白血病诊断的未来图景。MARLIN框架的成功,不仅仅是技术层面的胜利,它更代表了一种诊断哲学的转变:从依赖于多平台、长周期的“拼图式”诊断,转向一种快速、整合、基于功能状态的“全景式”诊断。

这项新技术的潜在临床价值是多方面的。

首先,也是最直观的,是时间的价值。能够在几小时内提供精确的分子分型,将极大地加速治疗决策过程。对于病情危重、随时可能出现肿瘤溶解综合征等急症的患者而言,这种速度上的优势可能直接转化为生存获益。

其次,是信息的增量。DNA甲基化分类能够解决传统诊断的“盲点”。无论是识别那些谱系模糊的病例(如BCL11B激活的MPAL),还是揭示那些遗传驱动因素隐匿的亚型(如DUX4重排的B-ALL或“遗传阴性”的HOX激活型AML),表观遗传学的视角都提供了一个更深刻、更本质的分类维度。

再者,是治疗的指引。甲基化分析有望成为新的治疗反应预测标志物。正如研究中所展示的,它能够可靠地识别出所有HOX激活的AML亚群,无论其背后的遗传驱动是什么。这对于指导menin抑制剂等靶向新药的使用具有重要的潜在意义。未来的研究将需要进一步验证,这种基于甲基化的分类是否能比单纯的遗传标记更好地预测药物敏感性。

最后,是技术的可及性。纳米孔测序设备相对便携、成本较低,而MARLIN的算法一旦训练完成,部署和运行也相对简单。这使得该技术框架有潜力在资源相对有限的临床环境中推广,让更多地区的患者能够享受到快速、精准的分子诊断服务。

当然,MARLIN框架也并非完美无缺,研究人员也清醒地认识到了其当前的局限性。目前的参考数据库主要覆盖了初诊的急性白血病,尚未包含可能进入鉴别诊断的其他血液肿瘤(如骨髓增生异常综合征MDS、淋巴瘤)或复发/难治的样本。因此,在现阶段,MARLIN的分类结果仍需在完整的临床和病理背景下进行解读,作为对传统方法的强力补充,而非完全取代。

未来的方向是明确的:不断扩大和完善参考数据库,纳入更多样的疾病类型和临床阶段;在更大规模的前瞻性临床研究中,验证MARLIN的性能和临床效用;并探索如何将甲基化信息与其他组学数据(如基因组、转录组)进行更深度的整合。

总而言之,这项研究为我们打开了一扇通往未来的窗。通过它,我们看到DNA甲基化,这个曾经被认为是基础研究领域的复杂概念,正在与尖端的测序技术和人工智能算法完美融合,化身为一把能够劈开诊断迷雾的利剑。它不仅为急性白血病患者带来了新的希望,也为整个肿瘤诊断领域,提供了一个全新的、充满想象力的发展方向。未来的癌症诊断,或许将不再是一场漫长的等待,而是一场在几小时内就能揭晓答案的精准速决战。

参考文献

Steinicke, T.L., Benfatto, S., Capilla-Guerra, M.R. et al. Rapid epigenomic classification of acute leukemia. Nat Genet (2025). https://doi.org/10.1038/s41588-025-02321-z

声明:本文仅用于分享,不代表平台立场,如涉及版权等问题,请尽快联系我们,我们第一时间更正,谢谢!

来源:生物探索一点号1

相关推荐