Nature Methods | 超越形态学边界:GHIST深度学习框架实现从细胞结构到基因功能的精准预测

B站影视 欧美电影 2025-09-21 17:25 1

摘要:想象一下,你正凝视着一张百年历史的黑白老照片。照片里有建筑,有人群,轮廓清晰,姿态各异。你能分辨出男女老少,能猜测他们的社会角色,甚至能从建筑风格中读出那个时代的印记。但你永远无法知道,那一刻,照片中每个人心中在想什么,他们在窃窃私语什么,他们身体的每一个细胞

想象一下,你正凝视着一张百年历史的黑白老照片。照片里有建筑,有人群,轮廓清晰,姿态各异。你能分辨出男女老少,能猜测他们的社会角色,甚至能从建筑风格中读出那个时代的印记。但你永远无法知道,那一刻,照片中每个人心中在想什么,他们在窃窃私语什么,他们身体的每一个细胞正在经历怎样的生命活动。

在病理学家的世界里,标准的苏木精-伊红染色(Hematoxylin and Eosin staining, H&E)切片就像这样一张信息丰富却又“沉默”的黑白照片。一百多年来,这种经典的染色方法一直是诊断疾病(尤其是癌症)的基石。然而,这张静态的“照片”背后,隐藏着一个动态的、由基因表达谱写的复杂世界。

近年来,空间分辨转录组学(Spatially Resolved Transcriptomics, SRT)技术的崛起,为我们提供了前所未有的视角,但其高昂的成本和复杂的操作流程限制了其广泛应用。我们能否搭建一座桥梁,让普通的H&E切片也能“开口说话”?

9月15日,《Nature Methods》的研究报道“Spatial gene expression at single-cell resolution from histology using deep learning with GHIST”,一个名为GHIST的深度学习框架横空出世。它向我们展示了一种惊人的能力:仅凭一张常规的H&E染色图像,就能在单细胞水平上,精准地预测出空间基因的表达情况。这不仅是一次技术的飞跃,更可能是一场即将到来的、关于我们如何理解和诊断疾病的深刻变革。

GHIST之所以能完成这项看似不可能的任务,其核心并不在于简单的图像识别,而在于它被设计成一个能够“理解”生物学内在逻辑的复杂系统。研究人员巧妙地让GHIST不再是一个只会“看图说话”的观察者,而是一位能够融会贯通、多维度思考的“生物学专家”。它的学习过程,就像一首由四个声部构成的交响乐“四重奏”,每个声部既独立又和谐,共同奏响了预测基因表达的华美乐章。

细胞核形态(Nuclei Morphology),形态是表达的窗口。这一切的基础,始于对H&E图像最基本元素的解读,细胞核的形态。在病理学中,细胞核的大小、形状、染色深浅等特征,是判断细胞状态的经典指标。GHIST首先通过一个深度学习的骨干网络,对图像中的每一个像素进行分析,学习如何精准地分割出每一个细胞核,并初步判断其类型。这相当于为这张复杂的组织“地图”绘制出了最基本的“地标”。

细胞类型(Cell Type),身份决定功能。仅仅识别出细胞核是不够的。组织是一个由多种细胞构成的复杂社会,包括肿瘤细胞、免疫细胞、基质细胞等等。不同的细胞类型,拥有截然不同的基因表达模式和生物学功能。GHIST的第二个任务,就是为每一个识别出的细胞核打上“身份标签”。它通过学习细胞核的视觉特征,并结合在训练阶段得到的真实基因表达数据,学会了如何区分这些形态上可能极其相似的细胞。

邻里组分(Neighborhood Composition),“近朱者赤,近墨者黑”的细胞社会学。这是GHIST设计中最为巧妙和深刻的一环。生物学的一个基本原则是:没有细胞是孤立存在的。一个细胞的行为和基因表达,深受其“邻居”的影响。这种细胞间的相互作用,构成了所谓的“肿瘤微环境”(Tumor Microenvironment, TME)。GHIST深刻地理解了这一点,它不仅分析单个细胞,更会评估一个局部区域内的“细胞生态”,即邻里组分的构成比例。这种对“细胞社会学”的考量,让GHIST的预测不再是孤立的点,而是连接成了富有生物学意义的面。

单细胞基因表达(Single-cell Gene Expression),最终的华彩乐章。在整合了前三层信息:细胞长什么样、它是什么、它的邻居是谁,之后,GHIST终于来到了它的最终目标:预测每个细胞内数百个基因的表达水平。这四重信息是相辅相成的。GHIST通过一个“多任务学习”(multitask learning)的框架,将这四个任务紧密地耦合在一起。最终,当训练完成,面对一张全新的、只有形态信息的H&E图像时,GHIST就能够凭借其学到的深刻“生物学直觉”,奏响完整的四重奏,精准地为我们描绘出那幅隐藏在静态图像之下的、生动的单细胞空间基因表达图谱。

一个模型的构想无论多么巧妙,最终都需要在真实世界的检验中证明其价值。GHIST的预测究竟有多准?研究人员进行了一系列严格的验证,将其“凭空”预测的结果与使用前沿的亚细胞空间转录组学平台(10x Xenium)测得的“地面真实”(ground-truth)数据进行了逐一比对。结果令人振奋。

研究人员选取了两份乳腺癌组织样本进行比较。令人惊叹的是,无论是各种细胞类型在组织切片上的空间分布模式,还是它们在整个组织中的总体构成比例,GHIST的预测结果都与真实数据展现出了高度的一致性。在一项多达八个细胞类型的分类任务中,GHIST对两份样本的细胞类型预测准确率分别达到了0.750.66,这对于一个仅从H&E图像出发的模型而言,是一个非常出色的成绩。

更核心的考验在于对基因表达水平的预测。研究人员聚焦于那些在空间上具有显著表达变异的基因(Spatially Variable Genes, SVGs)。为了进行全面的量化评估,他们计算了预测表达值与真实表达值之间的皮尔逊相关系数(Pearson Correlation Coefficient, PCC)。结果显示,对于排名前20和前50的SVGs,其中位相关系数分别高达0.70.6。当聚焦到一些与乳腺癌发生发展密切相关的关键基因时,结果更加令人信服。例如,脂肪酸合成酶(FASN)、转录因子FOXA1以及上皮细胞粘附分子(EPCAM),它们的预测相关性(R值)分别达到了惊人的0.770.800.84。这些数字有力地证明,GHIST不仅是在进行随机猜测,而是真正捕捉到了基因表达与组织形态之间的深层生物学联系

不仅如此,GHIST还被应用到了其他类型的癌症数据中,包括肺腺癌和黑色素瘤。在这些完全不同的组织类型中,GHIST同样表现出了强大的适用性,其预测的细胞类型比例与真实数据之间的相关性系数分别高达0.970.92。这表明,GHIST作为一个平台技术,具有广泛的应用潜力。

如果说在已知数据集上进行验证展示了GHIST的“准度”,那么将其应用于全新的、缺乏空间信息的大规模队列数据,则真正体现了它的“深度”和变革潜力。研究人员将目光投向了癌症研究领域的一座数据金矿——癌症基因组图谱(The Cancer Genome Atlas, TCGA)。

TCGA项目收集了数万名癌症患者的多维度数据,但绝大多数样本只包含“一锅粥”式的批量(bulk)测序数据和标准的H&E病理图像,完全丢失了空间维度的信息。GHIST正是那个唤醒沉睡数据巨人的咒语。研究人员选取了TCGA数据库中92名HER2阳性乳腺癌患者的H&E图像,利用训练好的GHIST模型,为这个经典的数据集凭空生成了一个全新的数据维度——单细胞空间基因表达

这个新生成的数据维度立刻就展现出了它的威力。研究人员利用这些虚拟空间表达数据,构建了预测患者生存预后的模型。结果显示,GHIST生成的“伪批量”(pseudobulk)表达数据,在预测患者生存风险方面的能力(C-index为0.57),甚至略微超过了使用部分真实RNA测序数据的基线模型。更重要的是,通过GHIST预测的风险评分,能够显著地将患者区分为高风险组和低风险组(P = 0.017),两组的生存曲线清晰地分离开来。这表明,从H&E图像中“读出”的空间基因信息,蕴含着真实且强大的临床预后价值。

GHIST带来的洞见远不止于此。在雌激素受体(ER)和孕激素受体(PR)阳性的患者亚群中,研究人员利用GHIST提供的细胞类型特异性表达信息,发现了一个原本被认为是同质的群体内部,其实存在着显著的异质性。他们发现,一部分患者的巨噬细胞和基质细胞高表达LPL、CAVIN2、TIMP4等基因,而这种高表达模式与更好的生存预后相关。这种隐藏在特定细胞类型中的、深刻影响临床结局的异质性,是传统的批量测序数据完全无法揭示的。

GHIST最令人激动的潜力,或许在于它能够将基因组层面的改变与组织的空间结构直接联系起来,帮助我们回答关于癌症生物学最根本的问题之一:基因组的结构性变异,例如体细胞拷贝数变异(Somatic Copy Number Alteration, SCNA),是如何影响肿瘤组织的三维空间格局的?

SCNA是指癌细胞中基因片段的增加或减少,这是癌症基因组最显著的特征之一。而现在,GHIST为TCGA数据集赋予了空间维度。研究人员利用这一独特优势,进行了一项开创性的分析。他们考察了TCGA患者中,某一个基因的拷贝数增加或减少,是否会系统性地影响到其他成百上千个基因在组织空间中的聚集或分散模式。

分析结果揭示了惊人的关联。他们发现,在一些特定的染色体“热点”区域,其拷贝数的变化,会像一个指挥官一样,远程“遥控”着整个组织中大量基因的空间分布格局。这些“热点”区域,恰恰是癌症研究中一些赫赫有名的区域,例如位于8号染色体长臂(8q24)的“基因沙漠”区域,以及包含HER2基因的17号染色体长臂(17q11-21)区域。

这一发现意义重大。它首次大规模地证实了,基因组层面的结构变异,其影响并不仅仅局限于单个基因的表达量,而是能够系统性地改变细胞的“社交行为”和组织的“空间建筑学”。GHIST提供了一种全新的研究范式,让我们能够将静态的基因组蓝图与动态的组织空间功能联系起来,从而更深刻地理解癌症这个复杂生态系统的运作法则。

GHIST的出现,为我们描绘了一幅计算病理学的未来图景。在这个未来里,每一张被存放在医院档案室里、积满灰尘的H&E病理切片,都有可能被重新唤醒,转化为蕴含着丰富基因信息的数字宝藏。这不仅仅意味着我们可以用更低的成本获取更多的数据,它更代表着一种研究和诊断范式的转变。

首先,它极大地推动了精准医学的“民主化”。昂贵的空间组学技术不再是少数顶尖实验室的专利。任何一个拥有标准病理学流程的机构,都有潜力利用GHIST这样的工具,从常规的诊断切片中挖掘出与患者预后、治疗反应相关的深度空间生物学信息。

其次,它为基础研究打开了新的大门。研究人员可以利用GHIST,在庞大的、已有的临床队列中,系统性地探索基因型与空间表型之间的关系,提出并验证全新的科学假说。无数隐藏在组织微观结构中的生物学规律,正等待着我们去发现。

当然,GHIST也并非完美无瑕。模型的性能依赖于训练数据的质量和数量,但它所指引的方向,无疑是清晰的:通过人工智能与经典病理学的巧妙融合,我们将能够以一种前所未有的方式,去阅读和理解生命的复杂篇章。从一张小小的、染色的玻璃切片中,我们看到的不再仅仅是细胞的形态,而是一个由基因、细胞和信号分子共同构建的、复杂而动态的微观世界。

参考文献

Fu X, Cao Y, Bian B, Wang C, Graham D, Pathmanathan N, Patrick E, Kim J, Yang JYH. Spatial gene expression at single-cell resolution from histology using deep learning with GHIST. Nat Methods. 2025 Sep 15. doi: 10.1038/s41592-025-02795-z. Epub ahead of print. PMID: 40954301.

声明:本文仅用于分享,不代表平台立场,如涉及版权等问题,请尽快联系我们,我们第一时间更正,谢谢!

来源:生物探索一点号1

相关推荐