DNA 版谷歌：科学家发布全球首个基因序列搜索引擎

摘要：随着基因测序技术积累的海量 DNA 与 RNA 数据充斥全球档案库，从中有效提取生物信号始终是科学界难题。苏黎世联邦理工学院研发的 MetaGraph 系统，将原始基因序列转化为压缩化的全文索引，实现近乎即时的模式匹配，有望加速病原体研究、耐药性分析等关键领域

随着基因测序技术积累的海量 DNA 与 RNA 数据充斥全球档案库，从中有效提取生物信号始终是科学界难题。苏黎世联邦理工学院研发的 MetaGraph 系统，将原始基因序列转化为压缩化的全文索引，实现近乎即时的模式匹配，有望加速病原体研究、耐药性分析等关键领域的科研进程。

苏黎世联邦理工学院研发“DNA 谷歌”：基因搜索引擎实现秒级数据挖掘。

苏黎世联邦理工学院最新开发的 MetaGraph 工具，使科学家能在数秒内检索海量公共 DNA 与 RNA 数据库——堪称“DNA 版谷歌”。

基因测序技术已彻底改变生物医学研究格局，不仅能够诊断罕见遗传病，还可精准识别肿瘤细胞中的特定突变。近年来，新一代测序技术更推动着重大科学突破：2020 至 2021 年间，全球研究人员正是凭借这些技术快速解码并监测了 SARS-CoV-2 病毒的基因组演化。

与此同时，越来越多科学家公开共享测序成果。这种开放精神使美国 SRA（序列读取档案库）和欧洲 ENA（欧洲核苷酸档案库）等主要数据库积累了约 100 拍字节的基因数据——相当于整个互联网的文本总量（1 拍字节约合 100 万千兆字节）。

面对这些庞大档案库，传统 DNA 序列比对需要消耗巨大算力，导致高效分析难以实现。苏黎世联邦理工学院的研究团队如今攻克了这一难题。

科研团队开发的创新方法极大缩短了检索流程。MetaGraph 数字工具能直接搜索数据库中所有 DNA/RNA 序列的原始数据，其工作原理与传统互联网搜索引擎类似。研究人员在搜索界面输入目标序列全文后，仅需数秒至数分钟即可定位该序列的所有出现位置。

“这堪称基因领域的谷歌搜索。”苏黎世联邦理工学院计算机科学系数据科学家冈纳·拉奇（Gunnar Rätsch）教授如此概括。传统方法只能检索描述性元数据，若要获取原始数据必须下载整个数据集，这种检索方式既不完整又耗时耗资。

研究显示，MetaGraph 具有显著成本优势：所有公共生物序列的索引仅需占用数个计算机硬盘，较大查询的成本也控制在每兆碱基 0.74 美元以内。

这款 DNA 搜索引擎凭借其精准性与高效性，有望加速基因研究进程——特别是在缺乏研究的病原体或新发传染病领域。该工具还可成为抗生素耐药性研究的催化剂：例如通过识别数据库中的耐药基因，或寻找能摧毁细菌的有益病毒（即噬菌体）。

300 倍压缩突破技术瓶颈

发表于 10 月 8 日《自然》杂志的研究论文中，团队演示了 MetaGraph 的工作原理：通过复杂数学图结构对数据进行索引与压缩。“从数学角度看，这相当于一个包含数百万列、数万亿行的巨型矩阵。”拉奇教授解释道。

虽然借助索引实现大数据检索在计算机科学中属常规操作，但 ETH 团队的创新之处在于实现了原始数据与元数据的复杂关联，以及约 300 倍的压缩率——如同书籍摘要：虽删减细节却保留全部主线情节，以更紧凑形式实现零关键信息损耗。

“我们正在突破技术极限，力求在零信息损失的前提下最大化压缩数据集。”生物医学信息学研究组的安德烈·卡勒斯（André Kahles）博士表示。与当前其他 DNA 检索方案相比，该工具具备可扩展性：查询数据量越大，所需额外算力反而越少。

MetaGraph 自 2020 年首次发布以来持续优化，目前已开放查询功能（附链接），为病毒、细菌、真菌、动植物及人类的数百万组 DNA/RNA 序列和蛋白质提供全文搜索引擎。当前全球近半数序列数据已完成索引，据拉奇教授透露，剩余数据预计年底前全部整合。该开源特性也吸引着拥有大量内部研究数据的制药公司。

卡勒斯博士甚至预言：“正如早期谷歌未能预见搜索引擎的全部潜力，若 DNA 测序技术持续高速发展，未来普通人精准识别阳台植物物种将成为常态。”

参考文献：《拍字节级基因数据库的高效精准搜索技术》，作者：Mikhail Karasikov、Gunnar Rätsch and André Kahles 等，2025年10月8日发表于《自然》。DOI: 10.1038/s41586-025-09603-w

来源：康嘉年華一点号

标签：谷歌搜索引擎序列基因 dna

本文地址：http://news.43b.com.cn/a/1529683.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!