DNA 版谷歌:科学家发布全球首个基因序列搜索引擎

B站影视 韩国电影 2025-10-13 07:50 2

摘要:随着基因测序技术积累的海量 DNA 与 RNA 数据充斥全球档案库,从中有效提取生物信号始终是科学界难题。苏黎世联邦理工学院研发的 MetaGraph 系统,将原始基因序列转化为压缩化的全文索引,实现近乎即时的模式匹配,有望加速病原体研究、耐药性分析等关键领域

随着基因测序技术积累的海量 DNA 与 RNA 数据充斥全球档案库,从中有效提取生物信号始终是科学界难题。苏黎世联邦理工学院研发的 MetaGraph 系统,将原始基因序列转化为压缩化的全文索引,实现近乎即时的模式匹配,有望加速病原体研究、耐药性分析等关键领域的科研进程。

苏黎世联邦理工学院研发“DNA 谷歌”:基因搜索引擎实现秒级数据挖掘。

苏黎世联邦理工学院最新开发的 MetaGraph 工具,使科学家能在数秒内检索海量公共 DNA 与 RNA 数据库——堪称“DNA 版谷歌”。

基因测序技术已彻底改变生物医学研究格局,不仅能够诊断罕见遗传病,还可精准识别肿瘤细胞中的特定突变。近年来,新一代测序技术更推动着重大科学突破:2020 至 2021 年间,全球研究人员正是凭借这些技术快速解码并监测了 SARS-CoV-2 病毒的基因组演化。

与此同时,越来越多科学家公开共享测序成果。这种开放精神使美国 SRA(序列读取档案库)和欧洲 ENA(欧洲核苷酸档案库)等主要数据库积累了约 100 拍字节的基因数据——相当于整个互联网的文本总量(1 拍字节约合 100 万千兆字节)。

面对这些庞大档案库,传统 DNA 序列比对需要消耗巨大算力,导致高效分析难以实现。苏黎世联邦理工学院的研究团队如今攻克了这一难题。

科研团队开发的创新方法极大缩短了检索流程。MetaGraph 数字工具能直接搜索数据库中所有 DNA/RNA 序列的原始数据,其工作原理与传统互联网搜索引擎类似。研究人员在搜索界面输入目标序列全文后,仅需数秒至数分钟即可定位该序列的所有出现位置。

“这堪称基因领域的谷歌搜索。”苏黎世联邦理工学院计算机科学系数据科学家冈纳·拉奇(Gunnar Rätsch)教授如此概括。传统方法只能检索描述性元数据,若要获取原始数据必须下载整个数据集,这种检索方式既不完整又耗时耗资。

研究显示,MetaGraph 具有显著成本优势:所有公共生物序列的索引仅需占用数个计算机硬盘,较大查询的成本也控制在每兆碱基 0.74 美元以内。

这款 DNA 搜索引擎凭借其精准性与高效性,有望加速基因研究进程——特别是在缺乏研究的病原体或新发传染病领域。该工具还可成为抗生素耐药性研究的催化剂:例如通过识别数据库中的耐药基因,或寻找能摧毁细菌的有益病毒(即噬菌体)。

300 倍压缩突破技术瓶颈

发表于 10 月 8 日《自然》杂志的研究论文中,团队演示了 MetaGraph 的工作原理:通过复杂数学图结构对数据进行索引与压缩。“从数学角度看,这相当于一个包含数百万列、数万亿行的巨型矩阵。”拉奇教授解释道。

虽然借助索引实现大数据检索在计算机科学中属常规操作,但 ETH 团队的创新之处在于实现了原始数据与元数据的复杂关联,以及约 300 倍的压缩率——如同书籍摘要:虽删减细节却保留全部主线情节,以更紧凑形式实现零关键信息损耗。

“我们正在突破技术极限,力求在零信息损失的前提下最大化压缩数据集。”生物医学信息学研究组的安德烈·卡勒斯(André Kahles)博士表示。与当前其他 DNA 检索方案相比,该工具具备可扩展性:查询数据量越大,所需额外算力反而越少。

MetaGraph 自 2020 年首次发布以来持续优化,目前已开放查询功能(附链接),为病毒、细菌、真菌、动植物及人类的数百万组 DNA/RNA 序列和蛋白质提供全文搜索引擎。当前全球近半数序列数据已完成索引,据拉奇教授透露,剩余数据预计年底前全部整合。该开源特性也吸引着拥有大量内部研究数据的制药公司。

卡勒斯博士甚至预言:“正如早期谷歌未能预见搜索引擎的全部潜力,若 DNA 测序技术持续高速发展,未来普通人精准识别阳台植物物种将成为常态。”

参考文献:《拍字节级基因数据库的高效精准搜索技术》,作者:Mikhail Karasikov、Gunnar Rätsch and André Kahles 等,2025年10月8日发表于《自然》。DOI: 10.1038/s41586-025-09603-w

来源:康嘉年華一点号

相关推荐