摘要:想象一下,如果你是一位地图绘制师,你的任务是描绘一片广袤而神秘的新大陆。然而,你手中唯一的工具,是一架视野极其狭窄的望远镜。你只能透过它,一次观察一小块区域。你或许能看到一座雄伟的山峰,或是一片宁静的湖泊,但你很难将这些零散的景象拼接成一幅完整的、能揭示大陆全
想象一下,如果你是一位地图绘制师,你的任务是描绘一片广袤而神秘的新大陆。然而,你手中唯一的工具,是一架视野极其狭窄的望远镜。你只能透过它,一次观察一小块区域。你或许能看到一座雄伟的山峰,或是一片宁静的湖泊,但你很难将这些零散的景象拼接成一幅完整的、能揭示大陆全貌的宏伟地图。
长久以来,研究人员在探索组织和器官的微观世界时,就面临着类似的“钥匙孔困境 (keyhole problem)”。我们渴望理解一个肿瘤的完整结构,或是一个大脑病灶的全貌,但我们的技术手段,就像那架视野狭窄的望远镜。
空间转录组学 (Spatial Transcriptomics, ST) 技术的诞生,无疑是这个领域的一场革命。它让我们第一次能够在保留组织空间位置信息的前提下,读取其中成千上万个基因的表达信息。这就像是为生命地图添加了“居民信息”,我们不仅知道城市里有哪些建筑(细胞类型),还知道每个建筑里住着谁(基因表达)。然而,即便是最先进的商业化空间转录组学平台,其组织捕获区域 (capture area) 也非常有限,通常只有几毫米见方。对于人类的许多组织样本,比如一个完整的肿瘤切片,或是一个多发性硬化症 (Multiple Sclerosis, MS) 患者脑内的复杂病灶,这个尺寸远远不够。研究人员被迫“管中窥豹”,从一个巨大的、异质性的组织中选取一小块区域进行分析,这其中蕴含的取样偏见和信息丢失的风险不言而喻。
我们是否注定只能进行这样“盲人摸象”式的探索?有没有一种方法,能够打破“钥匙孔”的限制,让我们获得一张覆盖整个组织的、细胞级别的基因表达全景图?
9月15日,《Nature Methods》的研究报道“Scaling up spatial transcriptomics for large-sized tissues: uncovering cellular-level tissue architecture beyond conventional platforms with iSCALE”,研究人员开发了一种名为 iSCALE的创新计算框架,它巧妙地融合了传统的组织病理学图像和有限的空间转录组学数据,成功地将我们从“钥匙孔”后的窥探者,转变为手握高清全景地图的领航员。这不仅是一次技术的突破,更是一次视野的解放,它将彻底改变我们理解大型复杂组织和疾病的方式。
要理解 iSCALE的核心思想,我们首先要回到一个看似“古老”的技术,苏木精-伊红染色 (Hematoxylin and Eosin staining, H&E)。一百多年来,H&E 染色一直是病理学家诊断疾病的“金标准”。它成本低廉,操作简便,能够清晰地展示出组织的细胞形态和基本结构,为我们提供一幅高分辨率的“形态学地图”。更重要的是,一张标准的 H&E 染色全切片图像 (whole-slide image) 可以覆盖非常大的组织区域,尺寸可达25毫米 × 75毫米,这足以容纳绝大多数临床研究中的组织样本。
这张巨大的、信息丰富的“形态学地图”(在 iSCALE的工作流程中被称为“母图像”(mother image))成为了iSCALE施展魔法的舞台。
iSCALE的策略并非试图用空间转录组学技术直接覆盖整个大组织,那将带来难以承受的经济和时间成本。相反,它采取了一种“以点带面”的巧妙策略。研究人员首先从大块组织或其相邻的组织切片上,获取少数几个标准尺寸的空间转录组学捕获样本。这些样本就像是散落在广袤大陆上的几个高精度“信息勘探点”,它们虽然覆盖范围小,但蕴含着丰富的基因表达信息。这些小样本被称为“子捕获 (daughter captures)”。
接下来,就是 iSCALE展现其计算能力的核心环节:
第一步:精确对位——将“勘探点”放回“大地图”。由于“子捕获”通常来自不同的组织切片,它们的形状和位置各不相同。iSCALE开发了一套半自动的、有人机交互环节的对齐算法。它首先对每个“子捕获”内部的基因表达数据进行空间聚类,形成独特的“基因表达模式图”,然后引导研究人员将这些模式图与“母图像” H&E 染色图谱上的组织形态特征进行匹配,像拼图一样,将每一个“子捕获”精确地对齐到“母图像”的相应位置上。
第二步:信息融合——学习“看图说话”的本领。当所有的“子捕获”都各就其位后,iSCALE便开始从这些已知区域中学习一个至关重要的“翻译规则”:组织的形态学特征与其内在的基因表达模式之间存在着怎样的关联?为了实现这一点,iSCALE采用了一种强大的机器学习模型,深度神经网络 (deep neural network)。它首先利用视觉转换器 (Vision Transformer, ViT) 模型,以一种模仿病理学家阅片的方式,从 H&E “母图像”中分层级、多尺度地提取丰富的组织学特征。然后,神经网络模型开始学习,将这些复杂的图像特征与“子捕获”区域内真实测得的基因表达数据一一对应起来。这个过程,就好像是在训练一个AI,让它学会仅仅通过观察一张组织的“照片”,就能读懂其背后的“基因语言”。
第三步:全景预测——从已知推向未知。一旦模型掌握了这种“看图说话”的能力,真正的突破就发生了。iSCALE将这个训练好的模型应用到整张巨大的 H&E “母图像”上,包括所有那些没有被“子捕获”直接覆盖的广阔未知区域。模型会“审视”图像上的每一个微小单元(一个8微米×8微米的“超像素”(superpixel),大小近似于一个单细胞),提取其组织学特征,然后基于已经学到的规则,预测出这个位置上成百上千个基因的表达水平。最终的输出,是一幅覆盖整个大块组织的、连续的、超高分辨率的基因表达图谱。研究人员成功地用少数几个“勘探点”的信息,点亮了整片大陆的基因表达全景。
iSCALE的研究人员设计了一系列严谨的基准测试 (benchmarking) 实验,来验证其预测的准确性。他们选择了一个理想的“考场”,一份公开的、尺寸巨大 (12毫米 × 24毫米) 的人胃癌组织样本。这份样本拥有使用 10x Xenium 技术测得的、覆盖全组织的单细胞分辨率基因表达数据,这相当于一份完美的“标准答案”。
研究人员在这个“考场”中模拟了真实的研究场景:他们假装自己只拥有从这块大组织中提取的5个小尺寸 (3.2毫米 × 3.2毫米) 的“子捕获”数据,然后使用这些有限的数据来训练iSCALE模型,并预测整个组织的基因表达。最后,他们将iSCALE的预测结果与 Xenium 测得的“标准答案”进行逐一比对。同时,他们还引入了另外两种前沿的空间转录组学分辨率增强算法,iStar和RedeHist作为参照,进行了一场“同台竞技”。
组织结构的精准还原
首先是对组织区域的分割能力。一幅准确的组织分割图谱是理解肿瘤微环境的基础。研究人员发现,iSCALE 预测的组织分割结果与病理学家的手动标注高度吻合,稳定地识别出了肿瘤 (tumor)、肿瘤浸润的基质 (tumor-infiltrated stroma)、粘膜 (mucosa) 和三级淋巴结构 (tertiary lymphoid structure, TLS) 等关键区域。相比之下,iStar和RedeHist的表现则差强人意。它们的分割结果严重依赖于用于训练的那个“子捕获”样本,这证明了iSCALE整合多个“子捕获”信息的策略的优越性,它摆脱了单一小样本带来的偏见,获得了更全局、更稳健的认知。
在两个具体的、具有重要临床意义的结构上,iSCALE的优势体现得更为淋漓尽致。一个是印戒细胞癌 (signet ring cells)的边界识别。iSCALE精确地勾勒出了印戒细胞癌区域与邻近胃粘膜的界限,与病理学家的手动标注严丝合缝。另一个是三级淋巴结构 (TLSs)的检测。TLSs 的存在通常与更强的抗肿瘤免疫反应和更好的患者预后相关。iSCALE识别出的 TLSs 与病理学家手动标注的区域高度重合,而iStar则倾向于检测到许多假阳性的 TLSs,RedeHist的检测灵敏度则非常低。
基因表达模式的定量评估
除了宏观的组织结构,iSCALE对具体基因表达水平的预测有多准?研究人员聚焦于表达变化最显著的前100个基因,从多个维度进行了定量评估。结果显示,在所有评估指标上,iSCALE 的表现都显著优于 iStar。一个值得注意的细节是,随着空间分辨率的整合(例如,在32微米×32微米的区域内计算相关性),相关性显著提高,约有50%的基因其相关系数超过了0.45。
这揭示了一个深刻的道理:对于空间生物学而言,单个点的绝对表达值固然重要,但更关键的是基因表达在空间上形成的整体“模式 (pattern)”。例如,对于基因ACTA2,尽管其在超像素水平的相关系数仅为0.27,但iSCALE预测出的空间分布图谱,与 Xenium 测得的真实图谱几乎完美重合。基准测试的结果是清晰的:iSCALE在这场严格的考试中取得了高分,它证明了自己不仅能够准确地重建大块组织的结构,还能可靠地预测其中关键基因的空间表达模式。
基准测试的成功给了研究人员巨大的信心,他们决定将 iSCALE应用于一个更具挑战性的真实世界问题,多发性硬化症 (Multiple Sclerosis, MS)的研究。MS是一种中枢神经系统的慢性炎性脱髓鞘疾病。其病理特征是在大脑和脊髓中形成大小不一、形态各异的病灶。理解病灶的细胞组成和基因表达差异,对于揭示MS的发病机制至关重要。然而,这些病灶的尺寸通常远超标准空间转录组学平台的捕获范围。
这正是 iSCALE发挥其威力的完美舞台。研究人员获取了一份来自MS患者的死后人脑组织样本,其尺寸约为22毫米 × 19毫米,包含了一个完整的慢性活动性病灶。他们遵循iSCALE的研究设计,从该组织块的相邻切片上获取了11个标准尺寸的 10x Visium “子捕获”样本。
从零散到整体的飞跃
如果仅依赖传统的空间转录组学分析,研究人员得到的只是11个互不相连的、低分辨率的“基因表达孤岛”。而 iSCALE则将这些“孤岛”联结成了一片完整的新大陆。通过整合这11个“子捕获”的数据,并在 H&E “母图像”上进行预测,iSCALE生成了一张覆盖整个418 平方毫米组织的、包含超过200万个超像素的超高分辨率基因表达图谱。基于这张图谱,iSCALE成功地对整个组织进行了连续的、无偏的分割。分割结果与病理学家的手动标注惊人地一致。
实验验证:当预测与现实交汇
计算预测的可靠性,最终需要通过独立的实验来验证。研究人员使用了免疫组化 (Immunohistochemistry, IHC)染色技术来检验iSCALE的预测。他们选择了两个关键的MS标志物:MOG (髓鞘标志物)和CD68 (活化免疫细胞标志物)。IHC的染色结果与iSCALE基于基因表达的预测完全一致。更值得一提的是,当研究人员用iStar对单个“子捕获”进行分析时,没有任何一个模型能够预测出完整的CD68 阳性边缘。只有iSCALE,通过整合所有“子捕获”的信息,才得以洞察到这一全局性的关键特征。
洞悉病灶的细胞生态
拥有了全景式的基因表达图谱后,iSCALE还能为我们揭示更深层次的生物学信息,病灶区域的细胞类型构成。分析结果描绘了一幅生动的“病灶生态图”。尤其是在那条被iSCALE标为红色的“慢性活动性病灶边缘”,这里不仅是CD68阳性细胞的聚集地,更是一个复杂的“免疫战场”,iSCALE在此识别出了大量富集的T 细胞、B 细胞以及多种不同状态的小胶质细胞亚群。这些细胞亚群在普通的 H&E 染色图像上是极难区分的,但这为理解MS病灶的持续性炎症和神经损伤机制,提供了前所未有的细胞空间分辨率的见解。
跨样本预测:迈向通用模型的一大步
iSCALE的能力甚至不止于此。研究人员进行了一项更大胆的尝试:能否用在一个样本上训练好的模型,去预测另一个全新样本的基因表达?他们将从第一个MS大脑样本 (Sample 1) 上训练好的iSCALE模型,直接应用于来自同一大脑不同区域的第二个大块样本 (Sample 2)。令人惊喜的是,即便是在没有任何来自 Sample 2 的基因表达数据作为“指导”的情况下,iSCALE 的预测结果依然非常出色。这一成功,预示着一个激动人心的未来:我们或许可以基于一部分“深度测序”的样本,建立起针对某种疾病的高精度iSCALE预测模型,然后将这个模型应用于大量只有 H&E 染色图像的存档样本,从而以极低的成本,解锁海量存量数据中蕴藏的分子生物学信息。
iSCALE的诞生,为研究人员提供了一种全新的“世界观”和方法论,彻底改变了我们在大尺度上探索组织微观世界的游戏规则。
它巧妙地搭建了一座桥梁,将病理学百年经典的 H&E 图像与最前沿的空间转录组学数据连接在一起。它让我们能够以一种前所未有的经济、高效的方式,实现对大块组织的全面、无偏、高分辨率的基因表达分析。这就像是为细胞生物学研究装上了“广角镜头”,让我们能够从关注一棵树木的细节,转向欣赏整片森林的宏伟与壮丽。
这项技术的影响是深远的。对于肿瘤生物学家来说,他们可以绘制出整个肿瘤及其浸润边界的完整基因表达图谱。对于神经科学家来说,他们可以全面地分析阿尔茨海默病、帕金森病等疾病的脑内病灶。更重要的是,iSCALE所代表的“计算显微镜”的理念,开启了一扇通往未来的大门。随着空间组学数据的不断积累,我们可以预见,未来将涌现出更多、更强大的预测模型。研究人员或许有一天能够仅仅通过一张标准的、廉价的 H&E 病理切片,就能“虚拟地”重建出其完整的转录组、蛋白质组甚至代谢组信息。
回顾生命科学的发展史,每一次重大的突破,都源于我们“看得更清、看得更广”的能力的提升。而今天,iSCALE这样的技术,则在另一个维度上拓展了我们的视野——空间的广度。
生命的故事,不仅仅写在每一个细胞的基因里,更写在它们所共同构成的宏伟蓝图上。现在,我们终于拥有了一支足够强大的画笔,去描绘这幅前所未见的生命全景图。一个属于大尺度空间生物学的新时代,已经到来。
参考文献
Schroeder, A., Loth, M.L., Luo, C. et al. Scaling up spatial transcriptomics for large-sized tissues: uncovering cellular-level tissue architecture beyond conventional platforms with iSCALE. Nat Methods (2025). https://doi.org/10.1038/s41592-025-02770-8
声明:本文仅用于分享,不代表平台立场,如涉及版权等问题,请尽快联系我们,我们第一时间更正,谢谢!
来源:生物探索一点号1