Nature Biotechnology | 重医大沈伟发表支持百万规模细菌基因组的序列比对软件LexicMap

B站影视 港台电影 2025-09-11 08:35 3

摘要:北京时间2025年9月10日17时,重庆医科大学附属第二医院病毒性肝炎研究所沈伟副研究员与欧洲生物信息研究所(EMBL-EBI)Zamin Iqbal教授合作,在《自然—生物技术》(Nature Biotechnology)杂志发表题为“Efficient s

北京时间2025年9月10日17时,重庆医科大学附属第二医院病毒性肝炎研究所沈伟副研究员与欧洲生物信息研究所(EMBL-EBI)Zamin Iqbal教授合作,在《自然—生物技术》(Nature Biotechnology)杂志发表题为“Efficient sequence alignment against millions of prokaryotic genomes with LexicMap”的原创性研究论文,报道了支持百万规模细菌基因组的序列比对软件LexicMap。

与现有方法(包括Blastn、Minimap2、MMseqs2、Ropebwt3)相比,LexicMap在保持相当准确性的同时,具有更快的速度、更低的内存占用和更高的可扩展性。LexicMap使研究人员能够在单机环境下,对全球所有已测序拼接的微生物基因组实现准确而快速的序列比对,这将为流行病学、生态学、进化生物学等领域的研究提供有力支持。

沈伟副研究员为论文第一作者与共同通讯作者,Zamin Iqbal教授为最后通讯作者,重庆医科大学附属第二医院为第一作者单位。

如同使用搜索引擎在互联网上查找网页一样,生物学家也常常需要在已有测序数据中搜索感兴趣的生物序列,例如公共卫生专家需要在全球测序数据中搜索携带特定抗生素耐药基因的质粒。然而,由于进化和突变的存在,查询序列和目标序列往往存在差异,从而需要复杂的计算——这个过程称为“序列比对”(Sequence Alignment)。

微生物广泛存在于自然界及动植物体内,与环境和人类健康密切相关。尽管单个微生物的基因组较小,但其物种数量庞大且突变速度快,因此呈现出极高的多样性。近年来,全球微生物序列数据持续、快速增长,例如GenBank数据库中已收录超过200万个细菌和古菌基因组(总计超过10万亿碱基),其规模远超现有序列比对软件的计算能力。BLAST是自上世纪90年代起流行至今的经典序列比对软件。然而,即使在云计算的强大计算资源加持下,NCBI网站上的在线BLAST能够比对的细菌基因组比例仍在逐年呈指数级下降,已难以满足多样化的生物医学研究需求。

在本研究中,作者开发了一个全新的序列比对软件LexicMap,支持在百万规模原核(细菌与古菌)基因组中,对基因、质粒、长读长测序数据进行准确、快速、低内存的碱基水平序列比对。与现有方法(包括Blastn、Minimap2、MMseqs2、Ropebwt3)相比,LexicMap在保持相当准确性的同时,速度更快、内存占用更低、具有更高的可扩展性(见下图)。例如,在包含234万个细菌与古菌的数据库中,比对1个基因并返回所有匹配结果仅耗时3到33分钟,内存消耗4到15 GB(使用48线程、数据库存放于机械硬盘中)。

图.序列比对/搜索性能比较。多个序列比对/搜索工具分别在包含1、10、100、1千、1万、10万、100万个原核基因组的数据库中查询两条查询序列的时间和内存消耗。查询序列包含1个少见的基因和1个保守的16S rRNA基因。

LexicMap的源代码、程序和文档托管在https://bioinf.shenwei.me/LexicMap 。该研究受到国家自然科学基金、国家留学基金委、EMBL Visitor/Sabbatical Programme fellowship等项目的资助。

沈伟副研究员为理学博士,硕士生导师(生物信息学),重庆生物信息学会常务理事。主要研究方向包括微生物基因组、宏基因组、大规模基因组数据检索等生物信息学算法设计与软件开发;主持国家自然科学基金面上项目等5项科研项目;以第一和/或通讯作者身份在Nature Biotechnology、iMeta、Bioinformatics等期刊发表SCI论文9篇,其中2篇为ESI高被引论文,2篇影响因子大于30,单篇最高引用2800余次,H-index 21。沈伟课题组网站: https://mbio.info/cn/ 。

相关论文信息:

编辑 | 余 荷

高引

iMeta工具

iMeta综述

高引

来源:微生物组

相关推荐