摘要:转自:PKU EMBL研究关注于AI + 极端环境及人体系统的微生物和开发,长期欢迎计算机、数学、生物学及环境类同学以RA/访问学生, 推免,申请博士等方式加入课题组。原文:
转自:PKU EMBL研究关注于AI + 极端环境及人体系统的微生物和开发,长期欢迎计算机、数学、生物学及环境类同学以RA/访问学生, 推免,申请博士等方式加入课题组。原文:
一,研究概述与作者介绍
二,基础概念解读
三,数据处理流程
四,研究结论
五,研究局限性
六,未来展望
七,参考资料
人体内的微生物基因数量是人类自身基因的百倍以上,它们构成了我们复杂的“第二基因组”——人类宏基因组。近年来,随着高通量测序技术和生物信息学的飞速发展,我们对这个内在宇宙的认知正在经历一场深刻的变革。一篇发表于顶尖期刊《自然-生物工程综述》(Nature Reviews Bioengineering)的重磅综述,由格罗宁根大学的彭浩然、Angel J. Ruiz-Moreno及傅静远教授团队撰写,为我们描绘了一幅宏伟的蓝图。
本论文系统性地提出了一个全新的分析框架——多维宏基因组学。该框架将宏基因组学的研究从简单地回答“微生物群落里有谁?”(一维构成分析),逐步深化到探索“它们有何不同?”(二维遗传多样性)、“它们如何工作?”(三维结构功能)以及“它们在何时何地发挥作用?”(四维时空动态)。这个从1D到4D的递进式框架,如同一张导航图,指引着科学家们如何层层深入,最终构建一个完整、动态的微生物生态系统模型。而贯穿始终、驱动这一变革的核心引擎,正是人工智能(AI),尤其是深度学习和自然语言处理模型,正在为解析这个“第二基因组”的空前复杂性提供前所未有的强大工具并引领我们进入一个全新的宏基因组学时代。
宏基因组学研究远比人类基因组学更为复杂。自21世纪初人类微生物组计划(Human Microbiome Project)和人类肠道宏基因组计划(MetaHIT)启动以来,科学家们逐渐意识到,研究这个由数千种微生物构成的动态群落,需要一套全新的理念和方法。
宏基因组与人类基因组的本质区别:
参考基因组的规模与动态性:人类基因组有一个相对稳定、统一的参考序列。相比之下,人类肠道微生物的参考基因组目录(UHGG)从最初的约20.5万个迅速增长到超过28.9万个,并且仍在不断扩充。
遗传多样性的复杂性与可变性:人类的遗传变异(如单核苷酸多态性,SNPs)在个体一生中基本保持稳定。而微生物群落的基因组成却是动态变化的。仅在人类肠道微生物中,就已鉴定出超过1亿个SNPs,其规模和可变性远超人类基因组 。
功能注释的巨大鸿沟:人类基因组包含约2万个蛋白质编码基因,功能研究已相对成熟。而肠道微生物的基因数量估计是人类的100到1000倍。在超过1.7亿个已知的肠道微生物蛋白质序列中,仍有超过40%的蛋白质功能未知,这片广阔的未知领域被称为宏基因组的“暗物质” 。
“泛基因组”的独特视角:微生物研究的核心概念之一是“泛基因组”(pangenome),它包含一个物种所有菌株共享的“核心基因组”和仅部分菌株拥有的“辅助基因组”。辅助基因组的存在反映了微生物通过水平基因转移等方式实现的快速适应和巨大的功能灵活性,这是人类基因组所不具备的 。
关联研究的挑战升级:人类的全基因组关联研究(GWAS)已足够复杂,而宏基因组范围的关联研究(MWAS)则面临更多挑战。微生物数据的“组成性”(即相对丰度而非绝对数量)和高度动态性,使得关联分析的统计学要求和解释难度都大大增加 。
2.物种注释:
参考依赖法: k-mer映射(Sylph)、标记基因比对(MetaPhlAn4)。
非参考法: 从头组装(metaSPAdes、MEGAHIT)→ 分箱生成MAGs(工具:VAMB、SemiBin)。
一维(1D) 分析是宏基因组学研究的基石,其目标是回答最基本的问题:一个微生物群落由哪些物种组成,以及它们的相对丰度是多少。1D分析旨在回答“群落里有谁?”。其标准流程包括:从样本测序获得DNA序列,通过严格的质量控制去除宿主DNA污染和低质量序列,最后进行物种鉴定与定量。
物种鉴定主要有两大途径:
基于参考的方法:利用已知物种的标记基因或全基因组进行比对,如MetaPhlAn 。
非基于参考的方法:通过从头组装和“分箱”(binning)技术,发现全新的物种。基于AI的深度学习分箱工具(如VAMB、SemiBin)在准确性上已超越传统方法 。
1D分析的核心挑战是处理“组成性数据”,即所有物种丰度为相对比例。AI为此提供了更优解决方案,如DeepCoDA深度学习框架,能更准确地构建与疾病相关的微生物模型
二维 (2D) 分析则带领我们深入到每个物种内部,探索不同菌株(strain)之间的遗传差异。这种菌株水平的精细解析至关重要,因为功能上的天差地别往往就隐藏在这些微小的遗传变异之中。例如,不同的大肠杆菌菌株,有的与人共生,有的则可能致病 。这些差异主要体现为单核苷酸变异(SNVs)和结构变异(SVs)。
AI极大地提升了变异检测的准确性。谷歌的DeepVariant工具创新性地将变异检测转化为图像分类任务,利用卷积神经网络(CNN)来识别真实的变异位点。通过分析这些遗传变异与宿主表型(如疾病)的关联,科学家们可以揭示微生物影响健康的直接遗传学证据。
经过1D和2D分析,我们获得了海量的微生物物种和基因序列信息。然而,一个严峻的现实摆在面前:在数以亿计的微生物基因中,超过40%的功能是未知的,它们构成了宏基因组的“暗物质” 。这个巨大的功能注释鸿沟,是理解微生物如何影响我们健康的最大瓶颈。3D结构生物学分析,在AI的驱动下,正以前所未有的力量照亮这片黑暗。
AlphaFold为代表的深度学习模型,仅凭蛋白质的氨基酸序列,就能以接近实验的精度预测其三维结。这一突破带来了革命性应用:
构建蛋白质宇宙地图集:ESM Atlas等数据库包含了数亿个AI预测的蛋白质结构 。
高效的功能推断:Foldseek等工具可通过快速的结构比对,从庞大的数据库中为未知蛋白找到功能线索 。
赋能生物工程:ProGen等蛋白质大语言模型甚至可以“编写”全新的、具有特定功能的蛋白质序列,为设计药物和新材料打开了大门。
宏基因组与人类基因组最根本的区别之一在于其动态性。人类基因组在个体的一生中以及身体的不同部位是基本恒定的,而微生物群落则是一个高度动态的生态系统,它随着时间(temporal)推移而变化,并在不同的空间(spatial)位置(例如肠道的不同区段)呈现出巨大的差异。4D分析,作为多维框架的顶峰,旨在捕捉并理解这种时空动态性,从而揭示宿主-微生物互作的真实场景。
捕捉时空变化:纵向研究揭示了菌群随饮食、旅行或感染的动态变化 。同时,智能胶囊和空间宏基因组学等技术正在帮助我们绘制微生物在体内的精确“地理位置”。
前沿技术:单细胞测序和器官芯片等技术,使我们能在更高分辨率上观察微生物的异质性及其与宿主细胞的直接互动 。
AI作为整合者:4D分析产生了海量的多模态数据。AI模型(如MCSPACE)能够整合这些复杂数据,推断微生物群落的时空动态,并将不同维度的信息(如微生物位置、宿主细胞类型、基因表达)融合在一张高清地图上,从而揭示因果关系。
参考基因组仍偏向常见微生物(如UHGG中稀有物种
非欧美人群样本不足。
时空分辨率: 体内微生物互作实时监测仍依赖侵入性采样(如胶囊内镜)。
功能验证缺口: 40%预测蛋白缺乏实验验证。
深度学习模型(如DeepCoDA)的“黑箱”特性限制机制性解读。
蛋白结构预测对无序区域精度较低。
多维宏基因组学框架为我们指明了微生物研究的未来方向。其最终目标是实现对“整体微生物组”(holomicrobiome)的理解,即将宿主及其共生微生物视为一个不可分割的、共同进化的生物单元。在这一理念的指引下,未来的应用前景无限广阔:
理性微生物工程:结合3D分析中如ProGen这样的AI设计工具,未来科学家们或许能够设计出“工程菌”。这些菌株可以被精确编程,用于在肠道内生产特定的治疗性化合物(如抗炎分子)、降解毒素或调节宿主免疫反应。
预测性与个性化医疗:4D分析的终极应用,是为每个个体建立其微生物组的“数字孪生”(digital twin)模型。通过这个模型,医生可以在计算机上模拟不同饮食、药物或益生菌干预对该个体肠道生态系统的影响,从而预测其健康轨迹,并为其量身定制最有效的预防和治疗方案。
总结来讲,多维宏基因组学(Multi-dimensional metagenomics) 框架为我们指明了微生物研究的未来——实现对“整体微生物组”(holomicrobiome)的系统性理解,即将宿主与微生物视为一个共同进化的生物单元 。未来的应用将包括设计“工程菌”进行疾病治疗,以及为每个个体建立微生物组的“数字孪生”模型,从而实现真正的预测性与个性化医疗。
Peng, H., Ruiz-Moreno, A.J. & Fu, J. Multi-dimensional metagenomics. Nat Rev Bioeng (2025). https://doi.org/10.1038/s44222-025-00346-x
高引
iMeta工具
iMeta综述
高引
来源:微生物组