摘要:得益于高通量测序技术的发展,宏基因组测序已成为揭示各种环境中微生物功能和物种组成的有力工具。在宏基因组分析的标准流程中,首先将测序获得的大量短读取(reads)组装成较长的重叠群(contigs)并预测编码基因;而计算基因的丰度通常基于使用Bowtie 2、S
得益于高通量测序技术的发展,宏基因组测序已成为揭示各种环境中微生物功能和物种组成的有力工具。在宏基因组分析的标准流程中,首先将测序获得的大量短读取(reads)组装成较长的重叠群(contigs)并预测编码基因;而计算基因的丰度通常基于使用Bowtie 2、Salmon 等工具将短读取映射到基因序列。由于基因丰度的计算会影响到微生物功能和物种的定量,以及后续的比较分析,因此显得十分关键。然而,基因本身只是重叠群上的短读取区域,短读取的直接映射可能会产生局部比对(local alignments),从而影响基因丰度计算的精确度。
2024年12月,Genomics Communications在线发表了束文圣团队题为Inappropriate application of mapping algorithms results in length-dependent gene abundances in metagenomic analysis 的研究论文。该研究系统地比较了不同映射工具和方法对基因丰度计算的影响,并给出了最小化局部比对影响的策略:Contig Mapping。
局部比对产生的本质在于基因只是重叠群上算法预测的区域,并非短读取直接组装而成的序列本体(图1a)。使用Bowtie 2 在默认参数下将短读取直接映射到基因序列,局部比对会被过滤从而导致基因的覆盖深度和丰度偏低,这种影响在较短的基因上更加明显,从而产生了长度依赖的基因丰度数据。假如分析同一条重叠群上的基因(理论上同一个重叠群上的基因丰度一致),获得的基因丰度会随着基因长度的减小而逐渐降低(即长度依赖的基因丰度,图1b)。使用Bowtie 2 的local 模式或者BWA-MEM,则会降低这种影响(图1c和d)。将短读取映射到重叠群,理论上不会产生局部比对。根据这种途径可以计算一条重叠群上每个位点的测序深度,并结合基因的坐标(起止位点)计算基因的丰度(即Contig Mapping策略)。通过该策略可以获得基因丰度最小的方差,也可以将局部比对的影响降到最低(图1e)。
图1. 使用基于比对的算法计算的丰度值(位于同一条重叠群的基因)。(a) 局部比对产生的原理图,等式展示了消除局部比对后基因丰度和其所在重叠群丰度的关系。(b)使用Bowtie 2 默认参数计算的基因丰度值,红线表示图a中等式展示的模型。(c)使用Bowtie 2的--local 模式计算的基因丰度值。(d)使用BWA-MEM 计算的基因丰度值。(e)使用Contig Mapping 策略计算的基因丰度值。图c、d、e中的红线表示重叠群的丰度。
该研究同时测试了Salmon 的性能。Salmon 作为一种转录组分析工具,在宏基因组分析中备受欢迎,主要基于两方面原因,一是超快的速度;二是可以直接给出TPM 值(transcripts per million,转录本定量测度,作为RPKM的总和标准化相当于相对丰度)。使用Salmon 将短读取直接映射到基因序列,得到的基因TPM 随着基因长度的减小而急剧升高,其方差非常大(图2a)。而采用了作者推荐的--decoys 策略,结果更加诡异(图2b)。经过研究发现,主要是由于Salmon 计算过程采用了EffectiveLength 这个测度,该测度与真实长度的比值随着基因长度的减小而急剧减小(图2c)。Salmon 的这种设计主要考虑到转录组测序的实质——长度越小的RNA 片段产生短读取的概率越低。然而,这种现象理论上不会出现在宏基因组测序获得的基因序列中。
图2. 使用基于非比对的算法计算的丰度值(位于同一条重叠群的基因)。(a)使用Salmon 计算的TPM 值。(b)使用Salmon 在--decoys 模式下计算的TPM 值,其中基因(i)上下游非编码序列均小于短读取长度;(ii)上游或下游非编码序列小于短读取长度;(iii)上下游非编码序列均大于短读取长度。(c)Salmon中EffectiveLength 与真实长度的比值和基因长度的关系。(d)使用真实基因长度代替EffectiveLength 计算的TPM 值。(e)在--decoys 模式下使用真实基因长度代替EffectiveLength 计算的TPM 值。
综上所述,使用Bowtie 2 和Salmon 等映射工具将短读取直接映射到基因序列计算的基因丰度具有长度依赖性,这会产生由于人为操作的原因而带来的技术方差,严重干扰基因的定量以及后续比较分析。计算的基因丰度应该能大体上反映真实群落里该基因的相对数量,而不是与其功能无关的生物学本质——序列长度。该研究推荐使用Contig Mapping 策略,并开发了可公开获得的脚本用于输出丰度值。
原文链接:
pdf下载:
gcomm-0024-0007.pdf
特邀作者:滕文凯
编辑:顾笑寅
审核:王丽瑶
gComm | Genomics Communications期刊征稿启事
About Genomics Communications
Genomics Communications 是一本开放获取的英文学术期刊,致力于传播基因组学的相关研究成果,专注于发表本领域原创研究论文、综述、快报、评述和前瞻性文章。期刊主编由美国Kansas State University的刘三震教授,美国University of Nebraska-Lincoln的杨金良教授和中国农业科学院的武志强教授共同担任。期刊由Maximum Academic Press出版,于2024年8月创刊。
期刊官网:
投稿链接:
关注基因组学通讯
来源:微生物组