Nature Microbiology | Eric Franzosa组-利用 WAAFLE 对人类微生物组横向基因转移进行分析

B站影视 2025-01-16 18:37 2

摘要:侧向基因转移(Lateral gene transfer , LGT),也称为水平基因转移,促进了微生物种群的基因组多样化。尽管此前的研究已对人类相关微生物分离株基因组中的 LGT 进行了调查,但对于个人微生物组中出现的 LGT 的情况却知之甚少,因为目前还没

利用 WAAFLE 对人类微生物组中的横向基因转移事件进行分析

● DOI:https://doi.org/10.1038/s41564-024-01881-w

● 原文链接: https://www.nature.com/articles/s41564-024-01881-w

● 第一作者:Tiffany Y. Hsu & Etienne Nzabarushimana

● 通讯作者:Long H. Nguyen(lnguyen24@mgh.harvard.edu) & Eric A. Franzosa(franzosa@hsph.harvard.edu)

● 发表日期:2025-1-2

● 主要单位:

美国哈佛大学、美国麻省总医院和哈佛医学院、加拿大达尔豪西大学、美国麻省理工学院和哈佛大学布罗德研究所等。

翻译整理:杨海飞,深圳基因组所&青岛农业大学联培硕士在读

摘要abstract

侧向基因转移(Lateral gene transfer , LGT),也称为水平基因转移,促进了微生物种群的基因组多样化。尽管此前的研究已对人类相关微生物分离株基因组中的 LGT 进行了调查,但对于个人微生物组中出现的 LGT 的情况却知之甚少,因为目前还没有广泛适用的方法表征来自复杂群落的 LGT。在此,我们开发、评估并验证了一种计算算法(WAAFLE 或用于注释组装结果和查找 LGT 事件的工作流程),用于从组装的宏基因组中解析 LGT。WAAFLE 在保持对属间 LGT 高灵敏度的同时,优先考虑特异性。我们将 WAAFLE 应用于来自不同身体部位的 2000 多个人类宏基因组,鉴定出超过 10 万个高置信度的此前未表征的 LGT(约每微生物基因组当量 2 个)。这些 LGT 富含移动元件,以及与破坏外来 DNA 相关的限制修饰功能。LGT 的频率受生物地理学、涉及对的系统发育相似性(例如,牙周梭杆菌(Fusobacterium periodonticum)和核仁镰刀菌(F. nucleatum))以及供体丰度的影响。这些因素在网络中表现为中枢类群与系统发育相邻类群的不均衡供体。我们的研究结果表明,人类微生物组 LGT 可能比以前描述的更为普遍。

结果results

WAAFLE 能够准确识别宏基因组水平基因转移

WAAFLE 以提供的组装宏基因组(以重叠群形式)作为输入(图 1a)。该方法对既未分类也未完成的组装具有鲁棒性。WAAFLE 使用基于同源性的搜索将每个重叠群与微生物基因序列的分类注释参考数据库进行比较。然后,使用迭代两步分类过程对重叠群的蛋白质编码开放阅读框(open reading frames, ORF)进行分析,这些 ORF 可以作为输入提供,也可以在搜索过程中识别。WAAFLE 首先确定重叠群的 ORF 是否可以合理地由单一物种解释。如果是,则 WAAFLE 将重叠群分配给该物种。如果不是,WAAFLE 再确定是否有两个物种可以共同解释这些 ORF。如果是,WAAFLE 提出这两个物种之间可能存在水平基因转移(LGT)。如果不是,WAAFLE 将在下一个分类级别(即属、科等)重复此过程。在每种情况下,要“解释”一个重叠群,重叠群的每个 ORF 都必须与一个或两个类群的泛基因组在预设的同源性阈值之上进行比对(单类群为 k1 ,类群对/LGT 解释为 k2 ;方法和附图 1)。

图 1 | WAAFLE 算法在宏基因组中发现新型横向转移方面是准确的。

a.WAAFLE 通过将宏基因组重叠群与微生物参考序列进行比对,在宏基因组中识别假定的水平基因转移(LGT)事件,从而(1)对重叠群进行分类学定位,(2)从属内到更远的转移事件迭代识别其中包含的潜在 LGT 事件。b. 我们在由受体“A”和供体“B”基因组组装而成的不同基因顺序配置的合成重叠群上对 WAAFLE 进行了评估。上图:真阳性率计算;分类学水平表示包含 LGT 的重叠群中涉及的供体和受体物种的最近共同祖先(LCA)。下图:假阳性率计算;分类学水平根据错误的 LGT 调用的远近进行分层。为了确定 LGT 的方向性,如果在通过质量控制的重叠群(方法)中基因邻接模式匹配 A B A,则 A 被视为受体,B 被视为供体。

我们对 WAAFLE 进行了训练和测试,并使用已知LGT含量的合成重叠群将其与相关方法进行了比较。每个合成重叠群由从随机选择的受体物种(A)中随机选取的遗传物质组成,其中可选地随机掺入来自供体物种(B)的遗传物质,从而产生水平基因转移的正例和负例。我们探索了重叠群大小、基因顺序模式以及受体和供体之间的系统发育距离范围。训练 WAAFLE 涉及优化 k1 和 k2 ,以在没有强烈水平基因转移证据的情况下倾向于将重叠群分配给单个分类群。同样优化了低质量或模糊的ORF和其他基于基因缺失的重叠群解释的过滤器,以提高特异性。尽管如此,WAAFLE 仍能识别出超过 84%的属间水平基因转移事件,同时报告的假阳性率非常低(

我们直接将 WAAFLE 与两种用于检测LGT的相关方法 DarkHorse 和 MetaCHIP 进行了比较(补充说明 1 以及扩展数据图 1 和 2)。我们能够直接将 DarkHorse 应用于上述合成的重叠群。然而,由于 DarkHorse 主要用于分析微生物基因组的大片段,我们发现,只有在分析最长重叠群中捕获的最极端(即跨门)的水平基因转移时,其灵敏度才达到 41%。即使在数据库中 20% 的数据被排除在外的情况下,WAAFLE 的灵敏度也相对更高(扩展数据图 1a),并且其最坏情况下的假阳性率(FPR)也更低(1.2% 对比 1.5%)。为了将 WAAFLE 与 MetaCHIP 进行比较,我们构建了符合 MetaCHIP 要求的额外合成数据,即水平基因转移发生在固定群落中的菌株之间,并且来自这些菌株的重叠群已被准确但不完全地分类。即使在数据库中 20% 的数据被排除在外的情况下,WAAFLE 的灵敏度也比 MetaCHIP 更高(61% 对比 17%),这在很大程度上归因于其对分类/基因组完整性依赖程度较低。值得称赞的是,MetaCHIP 的特异性极高(约 0% 的 FPR 对比 WAAFLE 的 0.5%;扩展数据图 1b)。WAAFLE、DarkHorse 和 MetaCHIP 的运行时间相似,各自的基于同源性的搜索步骤占用了主要的运行时间(方法)。

LGT 事件在人类微生物组中普遍存在

接下来,我们将 WAAFLE 应用于来自扩展版 HMP1-II 的 2376 个组装的宏基因组。经过样本和重叠群水平的质量控制后,这涵盖了来自 2003 个组装宏基因组的 6600 万个重叠群,这些宏基因组来自 16 个身体部位和 265 个个体(附表 1)。在此,WAAFLE 识别出 116823 个重叠群,捕获了推测的水平基因转移(约占长度≥500 个核苷酸的重叠群的 0.2%)。除了通过我们的检测算法识别外,我们还要求有支持性的读取水平证据。具体而言,每个水平基因转移的连接点必须由单个配对读取跨越,并且/或相对于其相邻基因有良好的覆盖度(附图 7)。这种额外的证据有助于避免因错误组装而产生的虚假水平基因转移的调用。因此,由于在≥1 个水平基因转移连接点处的读取支持较弱,54810 个包含水平基因转移的重叠群(初始调用的 32%)被保守地从后续分析中移除(附图 8)。

最终预测出的 116,823 个LGT事件,根据定义,相对于 WAAFLE 的 ChocoPhlAn 物种泛基因组数据库而言,此前均未被表征。我们根据分辨率(即涉及的分支的分类学级别)、远近(涉及分支的最近共同祖先(last common ancestor, LCA)的分类学级别)和方向性(涉及的分支能否被指定为供体/受体;扩展数据图 3)对这些 LGT 进行了分类。根据这些定义,68% 的 LGT 被解析到已知物种,93% 被解析到已知属。在 LGT 事件中,65% 发生在属间水平,而 35% 发生在属内水平。仅有 11% 的事件包含明确的供体和受体分支(受限制于需要更长的重叠群来通过基因邻接性确定方向性)。

我们通过将总LGT事件数量除以组装大小来计算每个样本的总体、定向和非定向 LGT 率(图 2a)。我们观察到,在主要的口腔、肠道和阴道体位点,非定向的属间候选 LGT 的中位率相似:每 1000 个基因 0.4 - 0.6 个事件。因此,我们估计来自这些环境之一的微生物基因组(包含约 2000 - 8000 个基因)可能包含 1 - 4 个属间 LGT 事件。我们同样计算了非定向 LGT 的比率,即涉及类群对的事件数量除以它们的总组装基因数(分别在物种和属水平上详细说明;附表 2 和 3)。定向 LGT 的比率以类似方式计算,但仅以受体的基因数进行标准化(扩展数据图 3b、c,以及附表 4 和 5)。这些比率可作为 LGT 事件“密度”的估计值。

图 2 | 通过 WAAFLE 对 HMP1-II 宏基因组进行分析得出的无方向性属间水平基因转移率

LGT 率以千个基因的总组装大小为基准进行标准化,按身体部位分层,并相应地按身体区域着色。a,考虑了所有属间 LGT 事件,无论供体和受体分支是否已知。每个箱形图显示了第一和第三四分位数,水平线表示中位数,而须状图延伸至 Q1 下方和 Q3 上方 1.5 倍的四分位距(内围栏),超出此范围的异常值以单独的数据点绘制。b,人类微生物组主要属之间的无向 LGT 率。展示了 HMP1-II 中至少有 20 个个体的元基因组序列的六个身体部位。顶行的三个身体部位均来自口腔。热图值表示来自该身体部位的主要属之间的无向 LGT 密度(率),其中“主要属”是根据排名平均相对丰度(avg. rel. abund.;方法)定义的。这些比率是根据 HMP1-II 参与者的首次访问样本计算得出的。Haemo.,(嗜血杆菌) Haemophilus; Strep., (链球菌)Streptococcus; Rothi., (罗斯氏菌)Rothia; Gemel., (孪生球菌属)Gemella; Veill., (韦荣氏球菌属)Veillonella; Neiss., (奈瑟菌属)Niesseria; Actin., (放线菌属)Actinomyces; Coryn., (棒状杆菌属)Corynebacterium; Capno., (二氧化碳噬纤维菌)Capnocytophage; Prevo., (普雷沃氏菌属)Prevotella; Bacte., (拟杆菌属)Bateroides; Alist., (另枝菌属)Alistipes; Parab., (副拟杆菌属)Parabacteroides; Eubac., (优/真杆菌属)Eubacterium; Subdo. (罕见小球菌属)Subdoligranulum; Faeca., (普拉梭菌)Faecalibacterium; Propi., (丙酸杆菌属)Propionibacterium; Staph., (葡萄球菌)Staphylococcus; Dolos., (狡诈球菌属)Dolosigranulum; Lacto., (乳酸杆菌)Lactobacillus; Gardn., (加德纳菌)Gardnerella; Atopo., (奇异菌属)Atopobium; Bifid., (双歧杆菌属)Bifidobacterium.

主要属之间的LGT率并不一定与其生态丰度相关(图 2b)。例如,口腔部位的嗜血杆菌(Haemophilu)和 奈瑟氏菌(Neisseria)之间的水平基因转移始终是最常见的,尽管它们的平均丰度并非前四位。口腔属之间的基因转移比其他部位更自由,前七位口腔属之间的转移均有检测到。相反,粪便、前鼻孔和后穹窿部位的转移则较为稀少。尽管鼻孔和后穹窿部位的稀疏性可能受其较小的组装规模影响,但粪便却并非如此(其组装规模与口腔样本相当;扩展数据图 3c)。例如,尽管我们发现肠道拟杆菌属(Bacteroides)和副拟杆菌属(Parabacteroides)(肠道中丰度第一和第三的属)之间存在许多候选水平基因转移,但它们与罕见小球菌属(Subdoligranulum)(丰度第五)之间的转移却不存在或极为罕见。相反,肠道罕见小球菌属(Subdoligranulum)和粪杆菌属(Faecalibacterium)(丰度第六)之间的水平基因转移率最高(约每 10,000 个基因发生 1 次)。这些发现表明,除丰度外,还有其他因素影响水平基因转移率。

与先前确定的趋势一致(见附图 9),同一身体部位的样本重复之间LGT图谱最为相似,其次是来自同一人的不同样本,然后是不同个体的样本。这表明水平基因转移事件在个体内部是独特的,但也会随时间而变化。值得注意的是,即使是从技术重复样本中得出的图谱也可能有很大差异,这反映了组装对读取精确采样的敏感性。实际上,这在常见组装属(贡献 500 个基因)中更为相似的水平基因转移图谱中得到了体现。

LGT率受系统发育距离和供体丰度的影响

在六个主要身体部位中的五个部位,我们观察到预测的水平基因转移(LGT)率与系统发育距离(PD)之间存在显著的负秩相关性(−0.67 ≤ ≤ −0.22,双侧 2 次事件/1000 个基因;附表 2)。链球菌(Streptococcus)和嗜血杆菌(Haemophilus)在口腔生物膜中共存,因此它们的物理接近性可能有助于克服系统发育障碍,促进水平基因转移。

图 3 | 水平基因转移率由系统发育距离和供体丰度决定。

a,六个主要 HMP1-II 身体部位中物种对间无向水平基因转移(LGT)密度(以它们的总组合组装大小归一化)与系统发育距离之间的负相关关系。物种对根据水平基因转移的远近(即两个转移物种的最近共同祖先的分类级别)着色。b,物种作为水平基因转移供体的频率(从有向水平基因转移事件推断)与四个主要 HMP1-II 身体部位中物种平均身体部位丰度之间的正相关关系。鼻腔和阴道穹窿部位在有向水平基因转移中代表性不足,因此未纳入此分析。x 轴边缘的水平标记代表作为供体出现但从未检测到(即平均丰度为零)的物种。在 a 和 b 中,仅考虑在组装的宏基因组中至少贡献 100 个基因的物种(或物种对)。相关性(ρ)值为斯皮尔曼等级相关;P 值为双侧。

亲缘关系和物理邻近性都对LGT率有影响,但之前对 LGT 的研究并未表明类群对的数量与其 LGT 率之间存在直接关系。我们进一步通过计算单个物种的丰度与其 LGT 获得率和捐赠率之间的关系来拓展这一研究。关键在于,将一个物种的丰度与其 LGT 率进行比较时,会受到“可组装性”的干扰效应影响,即丰度较高的物种往往组装效果更好(0.78 ≤ ρ ≤ 0.86),从而显示出更多的假定 LGT 事件(0.49 ≤ ρ ≤ 0.83;附图 10)。将丰度与 LGT 的“密度”(即每单位组装基因组的事件数)进行比较,在一定程度上弥补了这一缺陷,因为组装效果差且 LGT 检测频率低的物种,其 LGT 密度与丰度之间存在虚假的负相关(−0.45 ≤ ρ ≤ −0.63)。仅限于“组装良好”的物种(每个身体部位大于 10,000 个基因)的趋势则要平缓得多,且从未达到统计学显著水平(附图 10)。因此,在这种最保守的分析中,我们未发现物种丰度与 LGT 获得率之间存在关系。

相比之下,我们观察到物种的丰度与其作为“供体”的频率之间存在显著的正相关(0.37 ≤ ρ ≤ 0.46,双侧P

人类微生物组中乳酸菌属的优先网络形成

这些趋势在人类微生物组中无向LGT网络中表现得更为明显(图 4a)。网络呈现出清晰的系统发育组织结构,同一门内的物种之间形成了密集的子网络。这一点在肠道中尤为明显,转移的物种对被分隔成仅属于拟杆菌门和厚壁菌门的连通分量。在后穹窿处也存在类似的结构,拟杆菌门的子网络以普雷沃氏菌门(Prevotella)之间的转移为主,厚壁菌门的子网络则包括乳酸杆菌(Lactobacillus)(以及其他物种)。尽管口腔部位的主要属之间比肠道部位的属之间交换更为自由(图 2b),但这些部位的物种水平转移同样稀少,仅有 1-3% 的潜在物种对参与了观察到的水平基因转移(边)。这种稀疏性与水平基因转移网络的“无标度”结构相一致,其中水平基因转移枢纽很少,物种节点通常只有少数伙伴,类似于小世界网络(图 4 以及补充图 12 和注释 2)。总体而言,LGT网络的特点是大量物种仅参与一个或少数几个相互作用,而少数“枢纽”物种则与多个伙伴进行许多相互作用。这种模式在其他网络中也很常见,通常是由优先连接造成的:新形成的相互作用倾向于涉及度数较高的节点。这表明新加入网络的物种更有可能与现有的枢纽物种发生水平基因转移。这一观点与我们的观察结果一致,即丰富物种往往充当供体(图 3b),因为我们预计与丰富物种的物理相互作用会更频繁。

图 4 | 人类微生物组中水平基因转移事件的网络

a,LGT 以物种(节点)间无向边的形式展示在六个主要微生物组位点之间。来自口腔和肠道位点的边经过了 3% 人群流行率(prev.)的筛选,而鼻腔和阴道穹窿位点的边则全部展示(完整结果见补充表 2)。节点根据主要门类(按平均丰度排名前 5)着色,并根据物种的相对丰度调整大小。b,a 中(未筛选)网络中的节点度遵循幂律分布,存在大量低度物种和少数高度(枢纽)物种的长尾分布。c,涉及枢纽物种的 LGT 事件通常由少数 LGT 合作者主导。d,从口腔和肠道位点的供体到受体属绘制有向边。边经过 3% 人群流行率的筛选,方向性要求供体角色至少有两倍的偏好(双向边用虚线表示)。

此外,尽管物种丰富度高的物种往往拥有更多的合作伙伴,但它们也倾向于某些特定的物种(图 4c)。实际上,要解释高连接度物种 50% 的水平基因转移事件所需的合作伙伴数量通常远低于理论最大值(假设每个事件都与不同的伙伴发生,即 0.5×连接度)。作为一个极端的例子,牙周梭杆菌(Fusobacterium periodonticum)在舌样本中与 69 个其他物种发生了水平基因转移,但其 591 次水平基因转移事件中有 60% 是与单一的同属物种具核梭杆菌(Fusobacterium nucleatum)发生的。这种“偏好伙伴”现象并非仅仅归因于属内水平基因转移,在包含属间边的子网络中也再次出现(附图 12)。不过,系统发育相似性在塑造物种的偏好伙伴方面同样是一个相当重要的因素。例如,肠道普拉梭杆菌(Fusobacterium prausnitzii)中与 122 个其他物种发生了转移,但其超过 50% 的水平基因转移仅涉及 8 对,均为梭菌目(尽管不包括粪杆菌属(Faecalibacterium))。当仅关注方向已知的LGT网络时(图 4d 和补充说明 3),上述趋势在很大程度上得以重现。在此,我们还可以进一步描述枢纽对于供体与受体角色的偏好(例如,口腔链球菌(Streptococcus)与孪生球菌属(Gemella)),这也表现为不同分类群对之间的水平基因转移率的不对称性。例如,在 与 之间的水平基因转移中,前者作为供体的可能性是受体的 10 倍(附图 13)。

LGTs 富含移动元件和运输功能

LGT 通常与多种分子功能相关联,包括促进自身转移的功能(例如转座酶)以及提供适应性优势的功能(例如抗生素抗性)。我们对属间 LGT 的这些及其他功能进行了研究。在已知方向性的情况下,我们考察了转移基因相对于所有组装基因的功能富集情况(图 5a 和附表 6)。我们还考察了含 LGT 的重叠群相对于所有重叠群的一般功能富集情况(因此以覆盖范围为代价换取了特异性;图 5b 和附表 7)。由于皮肤和阴道部位的组装规模较小,因此在这些部位显著的功能富集情况较为稀少(图 2a 和扩展数据图 3)。

图 5 | 与预测的水平基因转移事件相关的分子功能。

a. 在首次访问的 HMP1-II 人体微生物组元基因组中,来自属间水平基因转移(LGT)事件的转移基因中 Pfam 域的富集倍数与所有属解析基因的比较。点表示基于 Fisher 确切检验且名义值经过 FDR 控制(目标 FDR = 0.1)的统计学显著正富集。仅考虑在至少一个身体部位的 10 次 LGT 事件中出现的域。按平均对数缩放富集倍数的前 25 个此类域显示。b. 属间 LGT 片段中 Pfam 域的富集倍数与单属片段(即忽略供体/受体状态)的比较。选择前 25 个域并如 a 中所示绘制,排除 7 个转座酶域以突出其他功能。c. 口腔和肠道部位 LGT 富集的 Pfam 域的分类组成。第一个示例(蓝色标题)基于 a 中的计数;所有其他示例(红色标题)基于 b 中的计数。

不出所料,转座酶是转移的富集功能之一(图 5a)。这些转座酶包括 Pfam 的 DDE 结构域 PF01609(在口腔和肠道部位的富集度超过 20 倍)。在不同身体部位,转移的基因还富集了其他移动元件过程,包括整合酶核心结构域(PF00665)以及一般的 DNA 相互作用结构域,如螺旋-转角-螺旋变体、DNA 甲基化酶和限制性内切酶。细菌限制修饰系统中的成对成分也得到了富集。虽然这些系统与破坏外来 DNA 相关(理论上阻碍了水平基因转移),但它们对宿主具有选择性优势,可防御噬菌体,这一现象可能促进其横向传播。

当然,富含水平基因转移(LGT)片段的基因组区域反映了转移基因的趋势(图 5b),其中排名前 25 位的最丰富功能中有 7 个是转座酶。未定向的 LGT 集合更广泛的覆盖范围揭示了运输结构域的丰富性,例如钠/氢反向转运蛋白 1(PF06965)和 V 型分泌系统扩展信号肽(PF13018),以及一些功能未知的结构域。虽然这些可能代表未表征的移动元件,但运输结构域并不直接与 DNA 相互作用,因此它们通过 LGT 的扩散表明了适应性优势的赋予。以 Pfam 作为功能分析的基础,令人惊讶的是,抗生素抗性基因在与 LGT 相关的基因中并未特别丰富,口腔部位的(PF01047)和(PF12750)以及粪便中的(PF02673)的过度表达是例外(附表 7)。为了更严格地探究这一发现,我们将 HMP1-II 片段注释到更具体的抗生素耐药基因数据库(CARD)中。方法和扩展数据图 4)。在此,我们观察到在所有身体部位中,水平基因转移(LGT)与非水平基因转移(non-LGT)的重叠群相比,假定的抗性基因(ARGs)存在显著的普遍富集(LGT 重叠群中每 1000 个基因有 1.19 个候选 ARGs,而非 LGT 重叠群中有 0.82 个;双尾费希尔精确检验

最后,我们观察到某些优先转移功能的分类学贡献与这些功能的背景分类学分布不同(这是贡献多样性差异的一个例子;图 5c)。例如,尽管口腔细菌是 C-5 胞嘧啶特异性 DNA 甲基化酶(PF00145)的常见拥有者,但它们很少参与该功能的水平基因转移。这类基因可能参与自我识别,因此在其他背景中对适应性益处不大。相反,虽然 是口腔中 域 PF13749 丰度的次要贡献者,但它们却经常与该功能的水平基因转移相关联。这表明来自Prevotella 的recG 改善了受体物种的适应性,从而导致该转移基因在其他基因组背景中的获得。

人类粪便中水平基因转移事件的实验支持

我们通过 PCR 扩增供体和受体物种之间的基因组连接区,对来自人类粪便的 21 个预测的LGT进行了验证。我们使用 PCR 扩增作为进一步的证据,证明特定的 DNA 序列存在于样本中。这些 LGT 是从 HMP2 炎症性肠病多组学数据库(Inflammatory Bowel Disease Multi’omics Database, IBDMDB)队列中 26 个已组装的对照参与者粪便宏基因组预测的另外 616 个 LGT 的数据集中挑选出来的,这些参与者有可供实验的生物样本。这 21 个经过验证的 LGT 具有 A B A 基因邻接关系,从而表明了它们的供体和受体分支,同时还提供了两个连接区以供验证,以及短于 400 个核苷酸的供体 - 受体连接区以方便引物设计(附表 8)。

在 21 个受调查的LGT事件中,有 18 个获得了实验支持(图 6 和补充图 14)。在 18 个有支持的事件中,13 个在两个水平基因转移连接点(AB 和 BA)都显示出了 PCR 扩增,而 5 个在其中一个连接点的扩增较弱或没有扩增,这可能是由于竞争序列或引物设计不兼容所致。经过验证的实例包括两个已知的移动元件,它们是从一个分支中鉴定出来的,但在另一个分支中被检测到(图 6a、c)。在另一个实例中(图 6b),转移的元件功能未知,但其两侧有噬菌体整合酶,这表明可能是通过噬菌体介导的转移。最后一个实例(图 6d)包括一个功能未知的基因的转移,其两侧有转座酶。此类转移可能代表未表征的移动元件或具有适应性优势的潜在新功能。

图 6 | 人类粪便中新型预测的水平基因转移事件的实验支持

a-d,来自 HMP2非炎症性肠病对照组宏基因组中单个重叠群的描述,其中包含一个经 PCR 支持的水平基因转移事件。“读取深度”显示了样本读取与重叠群中各位置匹配深度的变化,这是在 WAAFLE 质量控制程序中计算得出的。条带显示了 WAAFLE 识别的每个 ORF 的读取深度的平均值和标准差。“同源性得分”显示了 WAAFLE 蛋白编码参考序列与该重叠群的匹配情况,以及算法使用的 k1 和 k2 同源性阈值(图 1)。每个比对都由一条细灰色线表示(表示覆盖度),位于特定高度(同源性得分),在线内随机放置一个黑点(便于在密集比对区域计数比对)。‘PCR 引物对’显示了设计引物(线端点)和扩增产物的位置;一些水平基因转移事件在每个端点处有不止一对引物。“凝胶,泳道”指的是附表 8 中的 L。“WAAFLE 基因调用”和“Prodigal ORF”显示了 WAAFLE 和 Prodigal 建议的 ORF 在重叠群上的位置和方向,两者基本一致。红色标注的特征对应于假定的受体分支,而蓝色标注的特征对应于假定的供体分支。功能注释取自于(1)每个基因座上最佳同源物的 UniProt 分配名称,或者(2)该同源物的 UniProt 预测结构域组成。

作者简介

哈佛大学陈曾熙公共卫生学院Tiffany Y. Hsu博士为本文的第一作者,麻省总医院和哈佛医学院的医学和胃肠病学助理教授助理教授Long H. Nguyen和哈佛陈曾熙公共卫生学院Eric A Franzosa博士为本文通讯作者。

Long H. Nguyen(通讯作者)

Long H. Nguyen是蒙根研究所的研究医师和核心教员,也是麻省总医院和哈佛医学院的医学和胃肠病学助理教授,麻省理工学院和哈佛大学博德研究所的副研究员,以及哈佛陈曾熙共卫生学院微生物组与公共健康中心的教员。专注于饮食和生活方式对微生物组的影响,尤其关注肠道微生物群落及其在结直肠癌和炎症性肠病中的作用,以及胃肠道疾病和新冠肺炎中种族和族裔健康差异。目前,他获得了美国国立糖尿病、消化和肾脏疾病研究所(NIDDK)K23 奖、美国胃肠病学会研究学者奖、克罗恩病和结肠炎基金会职业发展奖、安斯泰来制药公司战略研究联盟的资助,并且是麻省总医院/田乔和克里斯蒂·陈研究所医学部变革性学者。在Nature、Nature Biotechnology、Nature Medicine和Nature Communication等国际高水平期刊发表200多篇文章。

Christopher J. Tino(通讯作者)

Christopher J. Tino,加拿大卡尔加里大学地球科学系博士,目前在Timothy W. Lyons教授的实验室任职博士后,研究方向为行星科学、行星地质学、行星演化。

10月18-20日,微生物组-扩增子16S分析

11月15-17日,微生物组-宏基因组分析

人满即开 | 论文作图和统计分析培训班

一站式论文提升服务,助您顺利发高分论文!

本公众号现全面开放投稿,希望文章作者讲出自己的科研故事,分享论文的精华与亮点。

投稿请联系小编(-genomics)

iMeta高引文章 fastp 复杂热图 ggtree 绘图imageGP 网络iNAP

iMeta网页工具 代谢组MetOrigin 美吉云乳酸化预测DeepKla

iMeta综述 肠菌菌群 植物菌群 口腔菌群 蛋白质结构预测

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature

为鼓励读者交流快速解决科研困难,我们建立了“宏基因组”讨论群,己有国内外6000+ 科研人员加入。请添加主编微信meta-genomics带你入群,务必备注“姓名-单位-研究方向-职称/年级”。高级职称请注明身份,另有海内外微生物PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

来源:微生物组

相关推荐