Nature | 长读长测序解析不同人群结构变异

B站影视 电影资讯 2025-08-14 12:12 2

摘要:基因组结构变异(SVs)占人类基因组多态性碱基对的大部分,与多种疾病直接相关。然而,传统短读长测序技术存在技术局限,尤其是对插入、复杂倒位及重复区域变异的检测。此前长读长测序(LRS)资源样本量小(如HPRC仅44个样本),缺乏全球多样性群体的高分辨率SV图谱


基因组结构变异(SVs)占人类基因组多态性碱基对的大部分,与多种疾病直接相关。然而,传统短读长测序技术存在技术局限,尤其是对插入、复杂倒位及重复区域变异的检测。此前长读长测序(LRS)资源样本量小(如HPRC仅44个样本),缺乏全球多样性群体的高分辨率SV图谱,阻碍了疾病关联研究和临床变异解读。亟需覆盖全球多样人群的长读长测序数据资源。
近日,德国杜塞尔多夫海因里希-海涅大学医学院和杜塞尔多夫大学医院医学生物计量和生物信息学研究所的Tobias Marschall与德国海德堡欧洲分子生物学实验室Bernardo Rodriguez-Martin、Tobias Rausch、Jan O. Korbelyu合作,共同在Nature上发表了题为Structural variation in 1,019 diverse humans based on long-read sequencing的文章。通过长读长测序(ONT平台)构建了1,019个人类样本(覆盖26个人群)的中等覆盖率(中位数16.9×)SV资源。作者首先开发了SAGA框架(SV Analysis by Graph Augmentation),整合线性参考基因组(GRCh38、CHM13)和图参考基因组(HPRC_mg)。他们使用ONT长读长测序(中位覆盖深度16.9×,读长N50=20.3 kb),对1,019个1kGP样本进行测序(非洲275人、东亚192人、南亚199人、欧洲189人、美洲164人)。而后结合Sniffles、DELLY(线性参考)和SVarp(图参考)算法进行SV检测,通过伪单倍型构建增强泛基因组图“HPRC_mg_44+966”,新增117,797个气泡,其中90%为新型SV位点。由此带来:1)比对效率提升,样本HG00513比对至增强图后新增33,208条读长和152.5 Mb比对碱基;2)分型准确性提升,基因分型工具Giggles对967个样本生成167,291个SV位点基因型,分型错误率仅3.87%(缺失)和4.44%(插入),经家系分析验证,与短读长数据交叉验证一致性达98.7%(缺失)和96.8%(插入)。以上说明图增强显著提升SV检测能力,并为群体规模分析提供高精度框架。接下来作者进行群体差异性分析。他们发现SV存在多样性,非洲群体SV数量最多(中位值7,479个/人),且杂合SV比例最高,这反映了更高的遗传多样性。作者还发现8,597个群体分化SV(Fst > 0.2),其中105个位于临床相关基因区域(如A4GALT缺失在非洲富集、SNTG2重复在东亚富集),这说明存在群体分化现象。此外,作者还发现了一些复发事件,如在12p13.3区域发现由AluSx-AluY介导的806 bp缺失独立复发,并通过单倍型聚类及断点分析证实。随后作者开发SVAN算法(SV Annotator),对SV类型进行系统解析,聚焦移动元件(MEIs)、VNTR和倒位(inversions)。作者新发现31,302个非参考MEI(较短读长增加20-179%),包括23,212个Alu、4,851个L1(Long interspersed nuclear element-1 )和3,239个SVA(SINE-VNTR-Alu)插入;84.3%为经典逆转座事件(含靶标位点重复TSD和polyA尾)。进一步地,作者发现878个转导事件,L1介导466个,SVA介导412个,揭示家族特异性偏倚:L1主要介导3′转导,SVA的5'/3'转导比例均衡。作者还定位了208个L1源基因座,其中8q21.11位点独家产生5'转导。此外,作者还新发现1,849个倒位,78%可基因分型;其中277个为串联重复倒位(中位长度284 bp)。断点同源性分析显示,35%非MEI缺失和28.7%插入存在>50 bp同源序列,表明同源定向修复(HDR)主导其形成;其中10.8%缺失由重复元件介导的染色体重排(TEMR)引发。总的来说,文章提供了首个覆盖26个全球人群的长读长SV资源,包含>100,000个双等位基因SVs和300,000个VNTRs,为群体遗传学提供基准数据集。首次揭示L1/SVA转导的位点特异性偏倚,深化对转座机制的理解。将极大推动精准医疗和群体遗传学研究。1. Spielmann, M., Lupiáñez, D. G. & Mundlos, S. Structural variation in the 3D genome.Nat. Rev. Genet.19, 453–467 (2018).2. Weischenfeldt, J., Symmons, O., Spitz, F. & Korbel, J. O. Phenotypic impact of genomicstructural variation: insights from and for human disease.Nat. Rev. Genet.14, 125–138 (2013).3. Sudmant, P. H. et al. An integrated map of structural variation in 2,504 human genomes.Nature526, 75–81 (2015).4. Zhao, X. et al. Expectations and blind spots for structural variation detection from long-readassemblies and short-read genome sequencing technologies.Am. J. Hum. Genet.108,919–928 (2021).5. Liao, W.-W. et al. A draft human pangenome reference.Nature617, 312–324 (2023).

来源:云阳好先生做实事

相关推荐