Nat Genet评论 | LocusCompare2 助力解决GWAS后续分析结果不一致问题

B站影视 日本电影 2025-10-29 08:59 2

摘要:全基因组关联研究(GWAS)已鉴定出数以万计与性状和疾病相关的基因座,但其中大多数的功能意义仍不清楚,因为约 90% 位于非编码区域。为了将 GWAS 风险位点转化为靶基因,大规模研究项目(如GTEx【1】和 eQTL Catalogue【2】)极大地扩展了与

全基因组关联研究(GWAS)已鉴定出数以万计与性状和疾病相关的基因座,但其中大多数的功能意义仍不清楚,因为约 90% 位于非编码区域。为了将 GWAS 风险位点转化为靶基因,大规模研究项目(如GTEx【1】和 eQTL Catalogue【2】)极大地扩展了与分子性状相关的变异集合,并揭示了 GWAS 变异在多种生物学背景下的调控作用。为了联合分析 GWAS 与分子数量性状位点(QTL),基因指派方法(Gene Implication Methods, GIMs)提供了统计上合理的方式,将 GWAS 信号与推测的因果基因联系起来。自 2010 年以来,已开发出多种GIM,可大致分为三类:变异水平的共定位方法(colocalization)、转录组范围关联研究(TWAS)和孟德尔随机化(MR)。然而,随着使用GIM检测因果基因的研究数量稳步上升,研究发现colocalization、TWAS 和 MR 可能产生不一致的结果。

2025年10月27日,新加坡国立大学理学院药学系刘博翔教授团队在Nature Genetics发表题为Mitigating inconsistencies in GWAS follow-up analyses with LocusCompare2的评论。该研究基于36种血液表型的GWAS数据【3】及GTEx Whole Blood QTL,系统分析了6种GIMs(COLOC、fastENLOC、eCAVIAR、SMR、PrediXcan 和 FUSION)所得结果之间的不一致性。研究结果显示,COLOC、fastENLOC和eCAVIAR三种共定位方法聚为一类,FUSION、PrediXcan和SMR三种方法聚为另一类。针对这种结果上的差异,研究进一步从三大类因素进行了深入分析。

首先,在算法因素方面,当 GWAS 与 QTL 的因果变异不一致时,会削弱共定位信号;效应大小的相关性则会影响 TWAS 和 MR 的显著性强度。此外,邻近基因的LD或共表达关系可能导致 TWAS 或 MR 检测到非因果基因的信号,从而产生假阳性。

其次,基因窗口定义和输入参数对结果有显著影响,尤其是在共定位方法中。本研究比较了四种不同的窗口定义:两种固定窗口和两种基于LD的窗口。固定窗口包括“GWAS lead SNP ±500kb” 和 “基因TSS ±1 Mb” 两种;结果显示两者得到的共定位结果差异较大。基于 LD 的窗口包括:

1.GWAS LD-based window:计算 GWAS lead SNP 与其他 SNP 的 LD,取 LD r2 > 0.1 的SNP及其±50kb区域作为分析窗口;

2.Combined LD-based window:在 GWAS LD-based window 基础上,结合 QTL LD-based window,若两者有重叠区域,则取二者的并集作为最终窗口。

与固定窗口相比,LD-based 窗口在捕捉 GWAS 信号和提高召回率方面表现更好,其中 Combined LD-based window 能更全面评估GWAS区域并提升准确率。然而,两种LD-based窗口均更易捕捉到局部 GWAS 信号,从而增加假阳性风险。此外,GIM 的结果还会受工具参数设置影响。例如,当COLOC和fastENLOC的先验概率均设置为p1 = 1×10⁻⁴、p2 = 1×10⁻⁴、p12 = 1×10⁻⁵ 时,两者结果高度相关(ρ = 0.765);但当fastENLOC自动推断先验、而COLOC保持固定先验时,二者的相关性下降至 ρ = 0.61,且fastENLOC推测的潜在因果基因数从65个降至37个。

第三,QTL的组织与细胞类型对结果有显著影响。在使用GTEx Whole Blood eQTL时,6 种 GIMs一致预测得到 436 个可能的因果基因–性状关联;而使用与研究目标相关性较低的 GTEx Lung eQTL时,结果减少至259个,且TWAS/MR与共定位方法之间的一致性显著降低(ρ = 0.31–0.42)。两种组织结果仅有 106 个基因重叠,凸显了基因优先排序中的背景特异性差异。

为便于整合多种 GIM 并规范参数报告,研究团队开发了在线平台 LocusCompare2 (https://www.locuscompare2.com)。该平台接收 GWAS summary statistics数据,支持在云端运行 6 种GIMs,允许用户从280 个提前载入的 eQTL 数据集中进行选择,并可自定义参数设置。平台简化了数据处理流程,在尽量减少用户干预的同时,兼容多样化的输入需求和格式。任务完成后,LocusCompare2 允许用户交互式查看和分析结果,并将数据下载到本地。

该研究由新加坡国立大学理学院药学系刘博翔教授担任通讯作者,博士生刘斐和高君彬为本文的共同第一作者。

新加坡国立大学基因组数据科学实验室(www.boxiangliulab.com)致力于结合QTL、单细胞及空间转录组学等方法,探索多基因疾病的分子机制。

参考文献:

1.GTEx Consortium. The GTEx Consortium atlas of genetic regulatory effects across human tissues. Science 369, 1318-1330 (2020).

2.Kerimov, N. et al. A compendium of uniformly processed human gene expression and splicing quantitative trait loci. Nature genetics 53, 1290-1299 (2021).

3.Astle, W.J. et al. The allelic landscape of human blood cell trait variation and links to common complex disease. Cell 167, 1415-1429. e19 (2016).

学术合作组织

(*排名不分先后)

战略合作伙伴

(*排名不分先后)

【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。

BioArt

Med

Plants

人才招聘

近期直播推荐

来源:晓晨说科技

相关推荐