EasyNanoMeta | 纳米孔宏基因组5纳米孔宏基因组组装方法

B站影视 电影资讯 2025-08-28 20:36 1

摘要:引文:Kai Peng, Yunyun Gao, Changan Li, Qiaojun Wang, Yi Yin, Muhammad Fazal Hameed, Edward Feil, Sheng Chen, Zhiqiang Wang, Yong-Xin

EasyNanoMeta | 纳米孔宏基因组5纳米孔宏基因组组装方法

纳米孔宏基因组数据分析系列教程5----纳米孔宏基因组组装方法

GitHub:https://github.com/P-kai/EasyNanoMeta

引文:Kai Peng, Yunyun Gao, Changan Li, Qiaojun Wang, Yi Yin, Muhammad Fazal Hameed, Edward Feil, Sheng Chen, Zhiqiang Wang, Yong-Xin Liu, Ruichao Li. 2025. Benchmarking of analysis tools and pipeline development for nanopore long-read metagenomics. Science Bulletin 70: 1591-1595. https://doi.org/10.1016/j.scib.2025.03.044

目录

纳米孔宏基因组基因组组装

纳米孔宏基因组测序数据组装是将纳米孔测序获得的微生物群落长读序列(reads)通过拼接算法整合,构建连续基因组序列的过程,获取的组装contigs的连续性、完整性以及准确性将直接决定后续基因预测、功能注释等分析的可靠性。相较于二代宏基因组测序的短读长组装,纳米孔三代长读长序列可以跨越短读长序列因无法跨越重复区,有效解析微生物群落中重复基因组片段的排列组合,进而使组装产生的contig或scaffold长度显著提升,N50等核心指标更优。以上特性使得纳米孔宏基因组测序更适合复杂微生物群落(如环境混合菌群)的基因组重构,为解析基因结构、代谢通路奠定重要基础。

一、实战操作

1. 使用metaFlye进行纳米孔长读宏基因组组装:metaFlye是长读序列组装软件Flye的衍生功能,2020年发表于Nature Methods上,其是专门用于复杂的微生物群落的宏基因组长读测序数据组装,针对物种多样性和重复区域问题进行了特异的算法优化。

2. 软件依赖:flye

3. 软件安装:

构建环境:

conda create -n flye_env

激活环境:

conda activate flye_env

安装flye:

conda install flye

4. 下载测试数据(以污水处理厂活性污泥宏基因组数据为例)

wget https://sra-pub-run-odp.s3.amazonaws.com/sra/SRR7627523/SRR7627523

SRA转fastq格式

fasterq-dump SRR7627523

5. 基因组组装步骤:

① 激活环境:

② 定义处理样本名称(以污水处理厂活性污泥宏基因组数据SRR7627523为例):

i=SRR7627523

③ 执行组装:

flye \ #flye的可执行软件--meta \ #以meta为参数,适合混合物种或微生物群落组装--nano-raw /path/to/${i}.fastq \ #输入的nanopore的原始数据--threads 24 #24个CPU线程(要小于服务器的CPU核心数)--out-dir ${i}_flye #输出结果

④ 结果示例(传入nanopore的原始数据部分示例):

Flye运行后生成的全部结果内容如下:

assembly_info.txt(基因组组装过程中生成的统计信息文件)部分示例如下:

二、其他纳米孔长读组装软件在纳米孔宏基因组组装方面的性能表现

除了metaFlye以外,canu、wtdbg2、nextDenovo也可进行纳米孔测序数据组装,但是他们在纳米孔宏基因组组装方面的性能未知,为了评估不同组装软件的性能,EasyNanoMeta选取了四个不同类型的数据集,包括模拟数据(Mock1 为对数分布群落,Mock2为均匀分布群落)、人肠道样本数据(human_C29)、动物肠道样本数据(YZAG19)及环境样本数据(STL_AS),分别采用多种方法进行了宏基因组组装、纠错与分箱分析,以建立与组装分析相关的纳米孔宏基因组分析基准(图1)。需要指出的是,所有测试数据均经过质量控制及宿主序列去除后再进行分析。此外,还系统评估了各类工具在计算资源消耗方面的差异,为实现高效且资源友好的宏基因组数据处理提供参考。在纳米孔长读序列组装方面,作者的结果显示,MetaFlye在生成更完整的组装结果和更长的 contig(拼接重叠群)方面表现尤为出色,是进行纳米孔长读宏基因组组装分析的首选工具。相比之下,诸如wtdbg2和Canu等工具,尽管在某些特定数据集下也具有优势,但其适用性更依赖于数据本身的特征。此外,MetaFlye在执行效率与组装质量之间实现了最佳平衡,使其在面向大规模长读长宏基因组研究时,表现出更高的实用性与可操作性。

图1. 不同宏基因组组装软件的性能评估。

总结

组装是纳米孔宏基因组分析中的重要一步,尽管metaFlye、Canu、wtbdg2、nextDenovo等工具均可进行三代纳米孔宏基因组数据组装,但是metaFlye以最佳的组装效果和输出结果仍然是目前的最优选择。

参考文献:

Kai Peng, Yunyun Gao, Changan Li, Qiaojun Wang, Yi Yin, Muhammad Fazal Hameed, Edward Feil, Sheng Chen, Zhiqiang Wang, Yong-Xin Liu, Ruichao Li. 2025. Benchmarking of analysis tools and pipeline development for nanopore long-read metagenomics. Science Bulletin 70: 1591-1595. https://doi.org/10.1016/j.scib.2025.03.044

来源:

Reference:

Themoula Charalampous, Gemma L. Kay, Hollian Richardson, Alp Aydin, Rossella Baldan, Christopher Jeanes, Duncan Rae, Sara Grundy, Daniel J. Turner, John Wain, Richard M. Leggett, David M. Livermore, Justin O’Grady. 2019. Nanopore metagenomics enables rapid clinical diagnosis of bacterial lower respiratory infection. Nature Biotechnology 37: 783-792. https://doi.org/10.1038/s41587-019-0156-5

高引

iMeta工具

iMeta综述

高引

来源:微生物组

相关推荐