Nature Biotechnology | FUGAsseM利器出鞘:一种基于微生物群落共表达的功能预测新范式

B站影视 港台电影 2025-10-17 18:25 1

摘要:在浩瀚的宇宙中,95%的组成是暗物质和暗能量,它们神秘莫测,却主宰着宇宙的运行规则。而在我们身体内部,同样存在一个微观宇宙,肠道微生物组 (microbiome)。令人惊讶的是,这个内在宇宙也充满了大量的“暗物质”。这里的“暗物质”并非天体物理学概念,而是指那

在浩瀚的宇宙中,95%的组成是暗物质和暗能量,它们神秘莫测,却主宰着宇宙的运行规则。而在我们身体内部,同样存在一个微观宇宙,肠道微生物组 (microbiome)。令人惊讶的是,这个内在宇宙也充满了大量的“暗物质”。这里的“暗物质”并非天体物理学概念,而是指那些已经被我们测序、存在于基因目录中,但功能完全未知的基因和蛋白质。这些“功能暗物质” (functional dark matter)在人体肠道微生物中占比高达70%,它们像一本用未知语言写成的天书,静静地躺在那里,记录着关乎我们健康与疾病的秘密,而我们却束手无策,无法解读。

10月15日,《Nature Biotechnology》的研究报道“Predicting functions of uncharacterized gene products from microbial communities”,为我们递上了一把开启这本天书的钥匙。研究人员开发出一种名为 FUGAsseM 的创新计算方法,它能够以前所未有的规模和精度,预测这些未知蛋白质的功能,为我们深入理解肠道生态系统的复杂运作机制,打开了一扇全新的大门。

想象一下,你得到了一份庞大无比的机器零件清单,上面列出了数百万个零件的编号,但绝大部分零件都没有功能说明。你只知道其中一小部分是齿轮、螺丝或轴承,而其余的则完全陌生。这就是过去几十年微生物组研究面临的窘境。

随着高通量测序技术的发展,我们获取微生物基因序列的能力呈指数级增长。我们能够轻松地“看到”一个微生物群落中存在哪些基因,就像拿到那份零件清单一样。然而,“看懂”它们的功能却异常困难。传统的功能预测方法主要依赖于“同源比对”,即通过将未知基因序列与已知功能的基因序列进行比较来推断其功能。这个方法很直观,就像你看到一个陌生的零件长得很像一个已知的螺丝,你便猜测它也是个螺丝。

但这种方法有两个致命的短板。首先,它严重依赖于一个已经注释好的、功能明确的数据库。对于那些在进化上与已知蛋白质相去甚远的全新蛋白质家族,这个方法就彻底失灵了。其次,许多微生物在实验室环境中难以培养,我们无法通过传统的生物化学实验来验证其基因功能,这导致我们的已知功能数据库本身就存在巨大的空白。正是这两个原因,导致了肠道微生物功能“暗物质”的普遍存在,构成了一个巨大的知识壁垒,阻碍了我们从根本上理解微生物如何影响宿主健康,以及如何开发基于微生物的精准干预策略。

面对这一挑战,研究人员决定换一个思路。他们不再孤立地看待每一个基因,而是将整个微生物群落视为一个动态的、相互协作的社会。在这个社会里,执行相似或相关任务的成员(基因)往往会协同行动。FUGAsseM 方法的核心思想,正是基于这种“协同行动”的逻辑,研究人员称之为“因罪关联” (guilt-by-association)

这个名字听起来有点像刑侦术语,但其原理却十分巧妙。它认为,如果一个功能未知的基因总是和一群功能已知的、共同参与某个特定生物过程(比如消化某种糖类)的基因“同进同出”,那么这个未知基因很可能也是这个过程的“同伙”。

为了捕捉这种“同进同出”的行为模式,FUGAsseM 创造性地将宏转录组学 (metatranscriptomics, MTX)数据作为核心证据。如果说宏基因组学 (metagenomics) 告诉我们微生物群落中“有哪些基因”(静态的潜力),那么宏转录组学则告诉我们“哪些基因在特定时间和环境下是活跃的”(动态的表达)。通过分析来自“整合人类微生物组计划” (HMP2/iHMP) 的800份肠道宏转录组样本,研究人员得以倾听整个微生物群落的“工作噪音”。那些在不同样本中表达水平总是同步起伏的基因,被认为存在共表达关系,它们的功能很可能紧密相关。这就像通过监听城市噪音,发现每当交通信号灯控制中心的信号响起时,路口的汽车引擎声也随之增强,从而推断出这两者之间存在功能关联。

当然,仅有共表达这一条线索还不够。FUGAsseM 像一位经验丰富的侦探,整合了多种维度的证据,构建了一个多层次的证据链:

1. 基因组邻近性 (Genomic Proximity):在原核生物中,功能相关的基因常常被组织在一起,形成操纵子 (operon)。因此,在基因组上物理位置相近的基因,其功能相关的可能性也更大。这相当于调查“犯罪团伙”时,发现几个嫌疑人住在同一栋楼里。

2. 序列相似性 (Sequence Similarity):虽然不能解决所有问题,但同源比对依然是重要的信息来源,尤其对于那些有远亲的蛋白质家族。这就像通过DNA比对寻找嫌疑人的远房亲戚。

3. 结构域-结构域相互作用 (Domain-Domain Interactions):蛋白质通常由不同的功能结构域模块组成。通过分析已知的结构域相互作用模式,可以推断包含这些结构域的未知蛋白质可能参与的互作网络。这好比通过分析工具的部件(比如锤头和把手),来推断这个工具的用途。

FUGAsseM 采用了一种巧妙的两层机器学习架构——随机森林 (Random Forest, RF) 分类器。在第一层,针对每一种证据类型(如共表达、基因组邻近性等),都训练一个独立的分类器。这些分类器各自为未知蛋白质的功能打出一个“嫌疑”分数。在第二层,一个“总指挥”式的集成学习模型会对来自第一层的所有证据分数进行加权整合,综合判断后,给出一个最终的功能预测置信度。这种分层整合的方式,使得模型能够根据不同功能的特点,动态地调整对各类证据的依赖程度,从而做出更准确的判断。

一个新方法的诞生,必须经过严格的检验才能令人信服。研究人员为 FUGAsseM 设计了一系列严苛的“考试”,以证明其预测的准确性和可靠性。

首先是 与“行业标杆”的正面比较。研究人员将 FUGAsseM 的预测结果与领域内公认的、基于单个分离培养微生物的权威功能预测工具 STRING 进行了比较。结果令人振奋:仅使用宏转录组共表达数据的 FUGAsseM-MTX 模型,其预测准确性就与 STRING 基于分离株共表达数据的预测相当(对于生物学过程 (BP) 条目,两者预测值的皮尔逊相关系数 R 达到0.43)。而整合了所有多组学证据的 FUGAsseM-full 模型,其预测性能更是与 STRING 的综合预测模型不相上下。

但这还不是最重要的。STRING 这类工具的局限在于,它们只能用于那些有高质量参考基因组的分离株。而在HMP2研究的336个肠道物种中,只有极少数(如大肠杆菌和铜绿假单胞菌)在 STRING 数据库中有直接的表达数据。FUGAsseM 的巨大优势在于其 无与伦比的覆盖度,它能够直接从群落数据中为任何被检测到的微生物(无论是否可培养,是否有参考基因组)预测功能。这标志着功能预测从“精英模式”走向了“全民模式”。

接下来是 更具挑战性的“时间旅行”测试。为了避免陷入“用A预测B,而B本身就是根据A注释的”这种循环论证的陷阱,研究人员设计了一个类似国际蛋白质功能预测竞赛 (CAFA) 的时间延迟验证。他们使用2019年的UniProt数据库作为训练集来训练 FUGAsseM,然后用它来预测那些在2019年时还没有实验证据,但在2019年至2022年期间被新的实验所证实的功能。这就像让模型回到过去,预测未来的科学发现。

结果再次证明了 FUGAsseM 的强大能力。以研究最深入的大肠杆菌 (E. coli) 为例,FUGAsseM 的 MTX 模型和完整模型在预测这些全新的、被实验验证的生物学功能时,其受试者工作特征曲线下面积 (AUROC) 的平均值高达0.80,这是一个非常出色的表现。这说明,FUGAsseM 的预测不是简单的数据库信息搬运,而是真正具有发现新知识的能力

最后,研究人员还进行了一项“消融研究 (ablation study)”,即依次去掉某一种证据,观察模型性能会受到多大影响,以此来评估每种证据的重要性。结果清晰地显示,宏转录组共表达数据是整个预测框架中不可或缺的基石。当移除共表达数据后,模型在预测那些有新增实验证据的功能时,性能出现了最显著的下降。这强调了直接从微生物群落的“现场”活动中获取信息是多么重要。对于预测全新的生物学过程 (BP) 注释,宏转录组共表达的平均重要性得分高达0.42以上,即使这些注释是基于其他证据类型(如序列相似性)做出的。

通过了重重考验,FUGAsseM 终于可以大展身手,开始系统性地解码肠道中的功能“暗物质”。研究人员将它应用于HMP2项目的数据,其结果堪称一场功能的“大发现”。

在 FUGAsseM 处理的超过54万个蛋白质家族中,它成功地为超过443,000个家族给出了高置信度的功能预测。令人震惊的是,在这些预测中,有82.3%是针对先前完全没有功能注释的蛋白质家族。这包括了超过33,000个与已知蛋白序列相似度极低,甚至完全没有同源性的“全新”蛋白质家族。

这项工作极大地扩展了我们对肠道微生物功能图谱的认知。以生物学过程 (BP) 注释为例,对于那些富含新基因的前25个物种,其蛋白质家族被功能注释的比例,在使用 FUGAsseM 后,平均从12.1%飙升至57.4%,实现了4.7倍的惊人增长。这意味着,许多我们曾经认为功能贫乏的物种,实际上拥有着远比我们想象中更丰富、更多样的功能武库。

更重要的是,FUGAsseM 的预测为我们讲述了许多生动的“微生物故事”:

故事一:肠道“维和警察”的隐藏防御系统

普氏粪杆菌 (Faecalibacterium prausnitzii) 是肠道中最著名的“益生菌”之一,被誉为健康的守护者。然而,由于其培养条件苛刻,我们对它的许多基因功能知之甚少。FUGAsseM 的分析揭示了一个惊人的秘密:在普氏粪杆菌的基因组中,存在着大量未被发现的、与病毒防御相关的蛋白质。

研究人员发现,许多功能未知的普氏粪杆菌蛋白质,与一些已知的噬菌体蛋白 (phage portal protein) 表现出强烈的共表达。FUGAsseM 基于此将它们预测为参与“病毒生命周期” (viral life cycle)。更有趣的是,FUGAsseM 还识别出了多个全新的 CRISPR-Cas 系统相关蛋白。CRISPR-Cas 是细菌对抗噬菌体入侵的“适应性免疫系统”。这些新发现的蛋白虽然与已知的 CRISPR 蛋白序列相似性不高,但它们的共表达网络、结构域组成都与典型的 CRISPR 系统高度一致,提供了它们作为防御体系一部分的有力证据。这一发现表明,即使是肠道中的“和平主义者”,也装备了精良的武器来应对无处不在的病毒威胁,这对于我们理解肠道微生态的稳定性和动态平衡至关重要。

故事二:多形拟杆菌的“碳水”盛宴

多形拟杆菌 (Bacteroides thetaiotaomicron) 是肠道中降解复杂碳水化合物的“专家”。它们拥有一套被称为“多糖利用位点” (Polysaccharide Utilization Loci, PULs) 的基因簇来完成这项工作。FUGAsseM 的分析进一步扩展了我们对这个“专家”工具箱的认识。

许多功能未知的蛋白被预测参与了“细胞碳水化合物分解代谢过程” (cellular carbohydrate catabolic process)。尽管这些新预测的蛋白质与已知的 PUL 蛋白同源性不强,但它们的共表达模式却揭示了真相:它们与那些负责识别、摄取和分解淀粉等复杂多糖的核心 PUL 蛋白(如 SusG、SusF)在转录水平上高度同步。此外,对它们蛋白质结构域的分析也发现,它们普遍含有糖基水解酶 (glycosyl hydrolase) 和外膜蛋白相关的结构域,这些都是PUL系统的关键组件。这表明,多形拟杆菌的碳水化合物代谢网络比我们之前认为的更加庞大和复杂,FUGAsseM 帮助我们识别出了这个网络中隐藏的新成员。

从“管家”到“专才”:功能的普适性与特异性

FUGAsseM 的预测不仅揭示了具体的生物学故事,还描绘了肠道微生物功能的宏观图景。研究发现,许多被广泛注释的功能是“管家功能 (housekeeping functions)”,比如DNA修复、核糖体RNA (rRNA) 处理等,这些是生命活动的基础,在大多数物种中都存在。FUGAsseM为这些核心通路补充了大量新的、物种特异性的蛋白质成员,极大地丰富了我们对这些基础生命过程多样性的理解。

与此同时,它也发现了很多高度物种特异性的功能,这些功能往往与微生物如何适应特定的生态位、如何与宿主及其他微生物互动有关。例如,毒素代谢 (toxin metabolism)、铁离子稳态 (iron ion homeostasis) 和铵离子代谢 (ammonium ion metabolism) 等功能,它们通常只在少数几个物种中被预测出来,但预测的准确率 (AUROC > 0.88) 却非常高。这些发现暗示了肠道微生物在处理环境毒素、争夺关键营养素(如铁)以及参与氮循环等方面,存在着高度专业化的分工。这些特异性功能可能是决定一个物种在复杂肠道环境中能否成功定植和发挥作用的关键。

FUGAsseM 的问世,不仅仅是提供了一个功能预测的工具,它更深远的意义在于,它推动了微生物组研究范式的转变——从关注单个、孤立的微生物,转向理解整个群落的协同运作。要真正理解一个基因的功能,不能只看它的序列,更要看它在真实的、动态的群落环境中,和谁“交谈”,和谁“合作”。

当然,任何方法都有其局限性。FUGAsseM 的性能依赖于宏转录组数据的深度和质量,对于丰度极低的微生物和转录本,其敏感性可能会受到限制。此外,宏基因组的组装质量也会影响基因组邻近性证据的准确性。然而,这些局限性并不能掩盖其开创性的光芒。

这项研究为我们打开了一扇通往微生物功能“暗物质”世界的大门。它提供的海量高置信度功能预测,不是研究的终点,而是新一轮探索的起点。它们为实验科学家提供了成千上万个高质量的、可验证的假说。我们可以根据这些预测,更有针对性地设计实验,去验证那些可能在炎症性肠病、代谢综合征或癌症中扮演关键角色的未知蛋白质的功能。

未来,我们可以期待将更多维度的数据,如宏蛋白质组学(研究哪些蛋白质被实际翻译出来)、宏代谢组学(研究微生物产生了哪些代谢物)甚至蛋白质三维结构预测数据,整合进 FUGAsseM 这样的框架中。当我们将基因的潜力、转录的活性、蛋白质的执行以及代谢的产出全部联系起来时,我们将不再仅仅是“阅读”微生物的基因组,而是真正开始“理解”这个复杂微观生态系统的运行法则。而这一切,都始于我们学会了如何倾听并解码它们在群落中的“窃窃私语”。FUGAsseM,正是那个开创性的“解码器”。

参考文献

Zhang, Y., Bhosle, A., Bae, S. et al. Predicting functions of uncharacterized gene products from microbial communities. Nat Biotechnol (2025). https://doi.org/10.1038/s41587-025-02813-7

声明:本文仅用于分享,不代表平台立场,如涉及版权等问题,请尽快联系我们,我们第一时间更正,谢谢!

来源:生物探索一点号1

相关推荐