摘要:细胞是生物的基本结构和功能单位。对特定细胞所在位置的了解,结合其表达的基因和携带的表观遗传标记的深入分析,正在揭示生物学和疾病的新见解。2016年,细胞生物学家Sarah Teichmann和Aviv Regev联合约100名其他科学家发起了“人类细胞图谱(H
细胞是生物的基本结构和功能单位。对特定细胞所在位置的了解,结合其表达的基因和携带的表观遗传标记的深入分析,正在揭示生物学和疾病的新见解。2016年,细胞生物学家Sarah Teichmann和Aviv Regev联合约100名其他科学家发起了“人类细胞图谱(HCA)计划”,设定了一个雄心勃勃的宏伟目标:对人体从胚胎发育到成人衰老的所有细胞类型进行分类,这意味着绘制人体约37.2万亿个细胞的图谱。
HCA计划
在项目启动后不到十年的时间里,HCA计划产生了一系列重大研究成果。HCA计划的顺利进行,离不开早期的基因测序计划,特别是人类基因组计划、NIH大脑倡议,以及ENCODE项目。目前,HCA团队由非洲、亚洲、拉丁美洲和中东的科学家组成,涉及来自大约1700个机构的3600多名研究人员,记录和研究来自大约100个国家的参与者的数据。
HCA团队
HCA项目产生的出版物数量逐年增加
11月20日,人类细胞图谱(HCA)计划在Nature及其子刊以专题形式发表了最新系列研究成果(Nature 5篇、Nature Medicine 3篇、Nature Communications 2篇、Nature Genetics 2篇),并汇编了已发表的研究成果文章27篇,提出了绘制第一个HCA草图的工具、数据和想法,代表着向细胞图谱迈出了重要一步。此次研究成果包括胚胎、胎儿器官的发育细胞图谱、数据分析和整合计算工具、器官特异性整合,为构建HCA图谱草图提供了重要基础。此外,Nature及其子刊还就HCA计划的计算技术、数据共享及前景等发表了观点、社论等7篇文章。
随着分子和空间分析方法以及人工智能和机器学习新算法的融合,细胞图谱的构建正在从数据收集发展到图谱整合。HCA计划现在已进入了数据整合阶段。HCA数据门户目前拥有从约9100名捐赠者收集的约6200万个细胞的数据。为了便于数据整合,研究团队正在构建18个HCA生物网络图谱,包括神经系统、肺、心脏、肠道和免疫系统的细胞图谱。每个网络都整合了与单个组织或器官相关的所有可用HCA数据。迄今为止,HCA的研究人员与全球其他联盟合作,已经收集了来自肺、神经系统和眼睛等网络的细胞图谱草图。此次发表的系列文章报道这些生物网络图谱的重大进展。
图:18个HCA生物网络图谱
HCA的研究团队表示:“虽然许多研究已经在人类基因组中绘制出了10万多种与疾病相关的变异,但我们不知道这些变异在哪些细胞中最活跃。如果不了解这些信息,我们就无法完全理解生物学,研究更强大的疾病模型,部署更好的诊断方法,并开发更有效的治疗方法。HCA的研究发现是迈向细胞图谱草案的开始。从绘制6200万个细胞到绘制10亿个细胞甚至更多细胞还有很长的路要走。”
以下为部分最新文章内容分享:
发育细胞图谱
目前,人们对人类胚胎和胎儿发育的了解仍然有限,主要由于获取组织的困难和可用于分析它们的工具有限。通过收集胚胎、胎儿和儿童组织的单细胞数据,HCA为妊娠期和儿童期的器官发育提供了前所未有的见解。
Nature: A multi-omic atlas of human embryonic skeletal development
人类胚胎骨骼发育的多组学图谱
研究团队利用大约336,000个细胞核液滴的配对转录和表观遗传图谱以及空间转录组学数据,绘制了怀孕后5-11周人类胚胎关节和头盖骨发育的多组学图谱。这是首张人类骨骼发育图谱。
图:人类胚胎在受孕后8.5周的骨骼发育
研究团队在整个胚胎骨骼中描述了不同区域的肢体和颅骨骨祖细胞轨迹,并进一步描述了控制膜内和软骨内成骨的调节网络。利用新工具ISS-Patcher对细胞簇进行空间定位,揭示了骨和关节形成过程中祖细胞分区的机制。通过轨迹分析,研究人员预测了来自施旺细胞的人类软骨细胞的潜在非典型细胞起源,并在计算机上模拟了导致单基因颅缝闭锁的基因扰动,暗示了潜在的细胞状态和疾病机制。该研究形成了骨骼和软骨成熟的详细动态调控图谱,捕获了整个妊娠早期人类滑膜和缝合关节形成的空间分辨细胞分类,是了解人类软骨和骨骼在妊娠早期发育的基础资源。
图:人类胚胎骨骼发育的多组学分析
Nat Commun: HOX gene expression in the developing human spine
HOX基因在人类脊柱发育中的表达
HOX基因在不同人类细胞类型中的精确应用尚不完全清楚。研究团队使用单细胞和空间转录组学以及原位测序,绘制了人类胎儿脊柱的发育细胞图谱。通过分析胚胎发育过程中不同细胞类型的HOX基因表达,发现神经嵴衍生物出人意料地保留了其起源的解剖学HOX基因编码,同时也采用了其它destination的编码。这一趋势在多个器官中得到证实。在脊髓的轴向面,研究发现在腹侧和背侧区域有不同的模式,这为深入了解HOXB基因的运动池组织和共线性缺失提供了见解。该研究结果揭示了HOX基因在脊柱发育中的表达,突出了HOX基因在神经嵴细胞衍生物中的“源代码”。
图:人类胎儿脊柱发育细胞图谱
数据分析和整合计算工具
收集数据是绘制人类细胞图谱的一个挑战,同时整合、搜索和利用这些数据也带来了额外挑战。HCA计划的研究团队开发了多种基于机器学习的方法正在帮助克服这些挑战,并增强HCA数据的效用。
Nature: A cell atlas foundation model for scalable search of similar human cells
可扩展搜索相似人类细胞的细胞图谱基础模型
挖掘不断增长的细胞图谱数据可以揭示细胞疾病的关联,发现组织环境中意想不到的细胞状态,并将体内生物学与体外模型联系起来。这需要一种全身细胞相似性的通用检测方法和一种有效的搜索方法。研究团队开发了一种基于度量学习的基础模型SCimilarity,可以在来自不同研究的数千万个细胞谱中快速搜索与给定细胞或细胞群具有相似特征的其他细胞。研究团队使用SCimilarity搜索了来自412个间质性肺病巨噬细胞和成纤维细胞scRNA-seq研究的2340万个细胞的图谱,揭示了其他纤维化疾病和组织中的相似细胞图谱。SCimilarity作为单细胞图谱的基础模型,能够查询整个人体的相似细胞状态,为从HCA中生成生物学见解提供了强大的工具。
Nat Genet: Consensus prediction of cell type labels in single-cell data with popV
基于popV的单细胞数据中细胞类型标签的相似性预测
细胞类型分类是单细胞测序分析的关键步骤。现有的转移细胞类型标签的方法缺乏对结果注释的不确定性估计,限制了可解释性和有用性。为了解决这个问题,研究团队提出了预测模型集合popular Vote(popV)。PopV能够实现准确的自动细胞类型注释,并提供不确定性评分。在多个案例研究中,popV可靠地注释了大多数细胞,同时突出了通过标签转移难以注释的细胞群。人工检查通常是注释过程的必要组成部分,popV有助于减少人工检查的负担,使研究人员能够专注于注释中最有问题的部分,从而简化整个注释过程。
图:popV框架
器官特异性整合
目前,已有部分研究开始利用HCA计划生成的数据以及为其分析开发的计算工具整合生物网络的数据,包括类器官、神经系统、免疫、肠道、生殖、遗传多样性、乳腺、肺以及心脏和血管生物网络。
Nature: An integrated transcriptomic cell atlas of human neural organoids
人类神经类器官的整合转录组细胞图谱
研究团队将跨越26个神经类器官分化方案的36个单细胞转录组数据集,绘制了人类神经类器官细胞图谱(HNOCA),包含超过170万个细胞。研究团队建立了一个分析框架,可将类器官图谱映射到人脑发育参考图谱,结果显示了体外产生的原代细胞类型和状态,并估计了不同方案中原代和类器官之间的转录组相似性。研究团队还提供了一个程序化的界面来浏览图谱和查询新的数据集,展示了该整合细胞图谱在注释类器官细胞类型和评估新类器官分化方案方面的强大功能。研究表明,该整合细胞图谱可以作为一个不同的对照来注释和比较神经疾病的类器官模型,识别可能与神经模型的病理机制相关的基因和途径。
图:人类神经类器官细胞图谱
Nature: Single-cell integration reveals metaplasia in inflammatory gut diseases
单细胞整合揭示炎症性肠病的化生
研究团队整合了25个单细胞RNA测序数据集,涵盖了发育和成年期的整个健康胃肠道。利用新开发的自动化质量控制方法(scAutoQC)对来自189名健康对照的385份样本进行统一处理,研究团队得到了包含约110万个细胞和136个细粒度细胞状态的健康胃肠道参考图谱。同时,研究团队将胃肠道癌症、乳糜泻、溃疡性结肠炎和克罗恩病等12个胃肠道疾病数据集映射到健康参考图谱上,添加了约50万个细胞绘制了跨越健康和疾病的胃肠道细胞图谱,总共160万个细胞,涉及27项研究、271名供体和6种胃肠道疾病。利用这160万个细胞数据资源,研究分析了炎性肠道疾病中的细胞类型和特征,描述了炎症诱导的干细胞改变粘膜组织结构和促进进一步炎症的变化,这一概念适用于其他组织和疾病。
图:胃肠细胞图谱整合概述。
在人类中,胸腺从胎儿发育早期就开始高度活跃发育,直到青春期胸腺退化。为了绘制这一过程在产前和产后早期的微观解剖学基础,研究团队建立了胸腺的定量形态学框架——Cortico-Medullary Axis,用于空间分辨分析。通过将这一框架应用于多模态单细胞图谱、空间转录组学和高分辨率多重成像数据,研究证明了胎儿发育中期开始时小叶细胞因子网络、典型胸腺细胞轨迹和胸腺上皮细胞分布的建立。研究确定了胸腺上皮细胞祖细胞和与Hassall小体相关的不同亚型的组织壁龛,并确定了CD4和CD8 T细胞谱系进入髓质的时间差异。以上发现为详细了解T淋巴细胞发育提供了基础,并与跨平台成像数据分析、注释和OrganAxis构建(TissueTag)的整体工具包相补充。
图:人类胸腺空间图谱数据组成和方法。
Sarah Teichmann表示:“此次汇编的文章集合只代表了HCA计划前七年研究成就的一小部分,展示了许多实验和计算方面的进步,这些进步将为人类细胞图谱草图提供基础,并代表着一个重要的里程碑,标志着我们对人体的理解发生了巨大的飞跃。”
Regev表示:“我们正在开发的图谱将对我们如何诊断疾病,我们如何发现和开发新药,以及我们如何精确地向患者提供这些药物产生深远的影响。同时,HCA计划对数据共享和开放访问的关注促进了人工智能和其他计算工具的发展。第一版完整人类细胞图谱预计将在2026年完成。”
来源:薛定谔的科学杂谈