摘要:基因组结构变异(Structural Variations,SVs)是物种遗传多样性的重要组成部分,对生物的性状和人类疾病的形成具有重要影响。然而,如何对不同物种中大量结构变异进行可靠的基因分型,一直是该领域的重大挑战。因短读长测序数据的读长限制和参考序列偏差
基因组结构变异(Structural Variations,SVs)是物种遗传多样性的重要组成部分,对生物的性状和人类疾病的形成具有重要影响。然而,如何对不同物种中大量结构变异进行可靠的基因分型,一直是该领域的重大挑战。因短读长测序数据的读长限制和参考序列偏差,难以实现高精度的结构变异基因分型。
近日,西北农林科技大学姜雨教授团队在Nature Communications杂志在线发表了题为
SVLearn: a dual-reference machine learning approach enables accurate cross-species genotyping of structural variants的研究论文。在这项研究中,团队提出了一种基于双参考基因组的机器学习方法,开发出精准跨物种基因组结构变异分型工具SVLearn。姜雨教授团队长期致力于结构变异的相关研究,之前已开发出可在动植物大群体中快速检测基因组拷贝数变异的软件CNVcaller。此次研发的SVLearn工具创新性地同时使用原始参考基因组和包含变异序列的替代参考基因组,通过综合基因组特征、比对特征及基因型特征,分别在人类、牛、绵羊三大物种数据集中构建了高精度的结构变异机器学习分型模型。
研究团队利用三个物种共六个高质量结构变异数据集,对SVLearn与四种国际主流工具进行了全面的性能评估。结果显示,SVLearn整体性能表现有5%-10%以上的提升,将基因型一致性提升到90%左右,在复杂的基因组重复区域,结构变异的分型准确性提升尤为显著。值得注意的是,针对测序深度较低的数据,团队专门进行了模型优化,使得SVLearn在低覆盖度下依然能保持与30倍测序深度相当的分型效果,大大提高了大规模结构变异研究的经济性和可行性。此外,通过跨物种交叉验证,进一步证实了该工具的普适性,表明其在不同物种中具有较强的基因分型能力。这一创新方法的提出,为结构变异研究提供了全新的分析工具,并有望推动人类疾病研究、动植物育种等领域的快速发展。
SVLearn构建流程
西北农林科技大学研究生杨启蒙、牛津大学博士后孙鉴锋为本研究的共同第一作者,西北农林科技大学姜雨教授和蔡钰东博士后为共同通讯作者。
SVLearn GitHub:https://github.com/yangqimeng99/svlearn
制版人: 十一
学术合作组织
战略合作伙伴
来源:王王深度科学