唐鲲团队开发首个全基因组规模SNP分析基础模型,重塑多任务遗传研究新范式

B站影视 电影资讯 2025-09-05 14:34 1

摘要:近年来,人工智能基础模型在生物医学多个领域发展迅速,如蛋白质组学(AlphaFold、ESM2)、转录组学(Geneformer、scGPT)和基因组学(Nucleotide Transformer)等。但目前尚无针对人类或农业物种群体规模遗传多样性分析的基础

近年来,人工智能基础模型在生物医学多个领域发展迅速,如蛋白质组学(AlphaFold、ESM2)、转录组学(Geneformer、scGPT)和基因组学(Nucleotide Transformer)等。但目前尚无针对人类或农业物种群体规模遗传多样性分析的基础模型。

单核苷酸多态性(SNP)是基因组中最常见的遗传变异类型,也是理解人类遗传多样性、开展生物样本库研究和推进精准医学的核心。当前,基于传统统计和机器学习方法的SNP分析工具存在计算效率低、可扩展性差、依赖参考面板和任务碎片化等局限;即便新兴的神经网络方法也多针对单一任务。因此,目前亟需开发一种能够统一处理多种遗传分析任务的基础模型。

近日,之江实验室和飞瀑首席科学家唐鲲、华大基因研究院白寅琪和中国科学院杭州医学研究所yang jianbo等团队合作开发了基于Transformer架构、首个专为全基因组规模SNP分析设计的基础模型SNPBag。该模型使用8.4亿参数、在100万个模拟基因组上进行预训练,覆盖约600万个常见SNP位点,能够有效捕捉连锁不平衡和单倍型结构,支持基因型填充、单倍型定相、基因组嵌入、群体结构分析和亲缘关系推断等多项任务。相比现有工具,SNPBag在保持相当或更优性能的同时,运行速度提升10-100倍。特别地,该模型还能将个体全基因组SNP数据压缩为0.75 MB嵌入表示,极大提高了数据存储与传输效率。总之,SNPBag构建了可扩展、自足的多任务AI框架,有望彻底改变SNP数据分析方式。相关研究发表在预印本平台bioRxiv。

SNPBag采用双向编码器表示(BERT)架构,通过注意力机制捕获SNP位点间的复杂依赖关系,解码个体基因组的不同特征。为解决数据获取受限问题,研究团队利用公开数据模拟了100万个合成基因组,用于预训练基础模型及微调特定任务模型。

研究团队采用掩码预训练策略,随机遮盖85–99%的基因型,并结合配对SNP标识符形成输入序列;使用线性嵌入层将这些序列投射到512维空间中,并将其输入到具有16层Transformer的BERT编码器中,再通过多层感知机(MLP)解码被掩码的基因型。最终训练出两个不同规模的模型:一个是22号染色体(chr22)模型,含3800万参数,用于基础任务验证;另一个是全基因组模型,含8.36亿参数,覆盖603万个SNP,用于广泛应用场景。

图1. SNPBag模型架构

基因型填充通过推断未分型变异,可提高GWAS的数据完整性、减少测序需求,并整合不同芯片平台数据以支持更广泛的分析;该过程依赖于连锁不平衡(LD)结构。研究团队以216名人类基因组多样性计划(HGDP)个体chr22的Illumina Omni2.5芯片数据为样本,评估了SNPBag的填充性能,并将其与传统方法进行对比。

结果显示,SNPBag基础模型的填充准确率达96.78%;经Omni2.5芯片掩蔽模式微调后的SNPBag omni模型,准确率进一步提升至97.16%,显著优于最佳传统方法,达到当前最先进(SOTA)水平。此外,SNPBag在NVIDIA A800 GPU上处理chr22仅需0.09秒/样本,较传统方法快13-20倍。该模型不依赖参考面板,可兼容任意芯片平台,为基因组分析提供了高效、可扩展方案。

图2. 基因型填充基准

单倍型定相对疾病关联检测和遗传模式研究至关重要。SNPBag通过新增MLP头微调定相功能,经过100万个模拟基因组训练,并在26个HGDP物理定相样本上测试。结果显示,SNPBag的转换错误率为3.07%,显著优于无参考面板传统方法,略逊于使用参考面板方法。模型在不同大陆人群中的错误率分布与现有方法一致,非洲人群错误率最高,大洋洲次之,其他人群均低于2.4%。

特别地,SNPBag无需参考面板,用GPU推理仅0.09秒,较传统方法快11-91倍,在效率和灵活性方面优势显著。未来若采用真实单倍型数据训练或可进一步提升准确率。

图3. 单倍型定相基准

全基因组分析因位点多存计算难题,低维嵌入可简化分析。SNPBag使用100万个模拟基因组进行预训练,22条常染色体并行处理并完成0.2轮次训练后,所得基础模型在Illumina Omni2.5芯片的基因型填充任务中准确率达97.7%。

在基因组嵌入方面,SNPBag可将包含603万个SNP位点的全基因组分为2,934个连续片段;并经两个MLP压缩成128维嵌入表示,第三个MLP解码可恢复原始片段序列,准确率达95%。值得注意的是,压缩后的全基因组嵌入仅0.75MB,能高效实现存储、传输、加密及大规模分析。

在基于嵌入数据的人群分类任务中,SNPBag为1KG中3,202个样本生成基因组嵌入,UMAP可视化显示出清晰、精细的亚大陆人群聚类,如中国汉族与日本人群分离等。通过轻量级神经网络对嵌入进行训练,SNPBag在五大洲际超级人群分类中F1分数达到0.998,在19个亚人群分类中平均F1分数为0.861,优于当前主流SVM和GTM模型,展现出卓越的细粒度群体分辨能力。

图4. 1KG样本的人群分类

亲缘关系推断对于病例对照研究、罕见病变异检测等至关重要。SNPBag通过其全基因组嵌入表示,在无需复杂单倍型定相或同源段(IBD)计算的情况下,实现了高效且准确的亲缘关系推断。SNPBag 依托保留单倍型信息的基因组嵌入,开发MLP亲缘关系估算器,经1KG模拟深度谱系训练后最远可推断12级亲属。

在精确匹配(D0)条件下,SNPBag的近亲(1–2级)召回率达0.96–1.00,中远亲(3–9级)为0.24–0.82;在1–3度误差(D1–D3)下,12 级内亲属推断准确率保持较高水平。SNPBag的整体推断准确率与当前权威方法(如23andMe的Bonsai系列方法)高度一致,对个体推断时间不足0.02秒,展现出显著的高效性与应用潜力。

图5. 亲缘性推断性能

综上所述,SNPBag作为首个面向全基因组SNP分析的多任务基础模型,在不依赖参考面板的前提下实现了与传统方法相媲美甚至更优的性能,并显示出极高的计算效率与数据压缩能力。该模型为大规模遗传数据的整合分析提供了高效、统一的AI框架,并支持群体遗传学、临床遗传推断及表型预测等多类下游应用,有望推动生物样本库资源的深度挖掘,成为推动精准医学发展的重要工具。

来源:育人点滴事

相关推荐