Nat Biotechnol | 沈伟/Zamin Iqbal合作开发支持百万规模细菌基因组的序列比对软件LexicMap

摘要：2025年9月10日，重庆医科大学附属第二医院病毒性肝炎研究所沈伟副研究员与欧洲生物信息研究所（EMBL-EBI）Zamin Iqbal教授合作，在Nature Biotechnology在线发表题为“Efficient sequence alignment

2025年9月10日，重庆医科大学附属第二医院病毒性肝炎研究所沈伟副研究员与欧洲生物信息研究所（EMBL-EBI）Zamin Iqbal教授合作，在Nature Biotechnology在线发表题为“Efficient sequence alignment against millions of prokaryotic genomes with LexicMap”的原创性研究论文。同时，该期刊发表题为“New algorithm enables fast search of the world’s microbial DNA archives”的研究简报，对该研究进行报道和点评。

如同使用搜索引擎在互联网上查找网页一样，生物学家也常常需要在已有测序数据中搜索感兴趣的生物序列，例如公共卫生专家需要在全球测序数据中搜索携带特定抗生素耐药基因的质粒。然而，由于进化和突变的存在，查询序列和目标序列往往存在差异，从而需要复杂的计算——这个过程称为“序列比对”（Sequence Alignment）。

微生物广泛存在于自然界及动植物体内，与环境和人类健康密切相关。尽管单个微生物的基因组较小，但其物种数量庞大且突变速度快，因此呈现出极高的多样性。近年来，全球微生物序列数据持续、快速增长，例如GenBank数据库中已收录超过200万个细菌和古菌基因组（总计超过10万亿碱基），其规模远超现有序列比对软件的计算能力。BLAST是自上世纪90年代起流行至今的经典序列比对软件。然而，即使在云计算的强大计算资源加持下，NCBI网站上的在线BLAST能够比对的细菌基因组比例仍在逐年呈指数级下降，已难以满足多样化的生物医学研究需求。

在本研究中，作者开发了一个全新的序列比对软件LexicMap，支持在百万规模原核（细菌与古菌）基因组中，对基因、质粒、长读长测序数据进行准确、快速、低内存的碱基水平序列比对。与现有方法（包括Blastn、Minimap2、MMseqs2、Ropebwt3）相比，LexicMap在保持相当准确性的同时，速度更快、内存占用更低、具有更高的可扩展性（图1）。例如，在包含234万个细菌与古菌的数据库中，比对1个基因并返回所有匹配结果仅耗时3到33分钟，内存消耗4到15 GB（使用48线程、数据库存放于机械硬盘中）。

LexicMap使研究人员能够在单机环境下，对全球所有已测序拼接的微生物基因组实现准确而快速的序列比对，这将为流行病学、生态学、进化生物学等领域的研究提供有力支持。LexicMap的源代码、程序和文档托管在https://bioinf.shenwei.me/LexicMap。