Cell Genomics丨郝兴杰课题组开发整合多组学数据的遗传风险评分方法OmniPRS

B站影视 港台电影 2025-04-18 17:08 1

摘要:2025年4月15日,华中科技大学同济医学院公共卫生学院郝兴杰课题组在Cell Genomics发表了题为Incorporating multiple functional annotations to improve polygenic risk predi

2025年4月15日,华中科技大学同济医学院公共卫生学院郝兴杰课题组在Cell Genomics发表了题为Incorporating multiple functional annotations to improve polygenic risk prediction accuracy的研究论文,该研究提出一种名为OmniPRS的多基因遗传风险评分(Polygenic Risk Score, PRS)方法。OmniPRS通过整合全基因组关联研究(GWAS)的汇总数据和多组学数据,显著提高了复杂疾病遗传风险的预测准确性,同时大幅降低了计算成本,为大规模基因组研究和临床应用提供了高效工具。

多基因遗传风险评分(PRS)是评估个体疾病遗传风险的重要方法,但其准确性受限于遗传结构的复杂性和现有方法对功能注释信息的利用不足。传统PRS方法通常忽略遗传变异,即单核苷酸多态性(SNP)的生物学功能或组织特异性调控机制,导致预测效能受限。OmniPRS方法基于“多基因模型”(polygenic model)理论的一种特殊框架——“全基因模型”(omnigenic model),通过分层连锁不平衡评分回归(S-LDSC)量化不同组织特异性功能注释的遗传方差成分,并利用混合模型重新估计SNP效应值,实现“全基因模型”核心基因(core gene)和周围基因(peripheral gene)的假设;进一步提出三种整合策略(等权重模型、贝叶斯模型平均和LASSO模型),将不同组织的特异性风险评分融合为统一的多基因评分(图1)。

图1.OmniPRS框架核心流程

注:是在SNP j处的边际关联检验统计量;是在组织特异性注释模型f中的第 a个功能类别;是功能类别的系数;是功能类别的LD得分;y是n维表型向量;X是基因型矩阵;β是SNP的边际效应;步骤 3 中的三种策略分别是等权重(EW)模型、贝叶斯模型平均(BMA)和最小绝对收缩和选择算子(LASSO)模型。

OmniPRS的良好性能和核心优势在系统模拟研究和真实数据研究中得到充分验证,从算法效率到生物学机制解释都取得一定突破。

模拟研究发现,在不同遗传力(0.1-0.5)和训练样本量(1万-8万)下,OmniPRS的预测精度(R²)始终领先;在稀疏遗传模型(1%因果SNP比例),OmniPRS较贝叶斯方法PRScs精度提升12.6%;在多基因混合模型(SNP效应呈高斯混合分布),精度提升13.5%,凸显其对复杂遗传信号的解析能力;依托解析型混合模型解决方案,OmniPRS的计算速度较PRScs快35倍,单次分析耗时从小时级缩短至分钟级,可轻松处理百万级样本数据。

在真实数据分析中,相比传统方法C+T,OmniPRS对定量性状(如身高)和二元性状(如精神分裂症)的预测精度平均提升52.31%和19.83%;相较于同类功能注释整合方法LDpred-funct,精度进一步优化3.92%;特别是在BMI性状中,OmniPRS预测精度提升最为显著,R²从C+T的0.037跃升至0.172(+366.67%)。

本研究也探索了不同LD参考面板对PRS预测性能的影响,相比传统1000 Genomes Project的LD参考面板数据,采用UK Biobank(5,000例欧洲样本)作为参考面板在UKB人群中进行预测时,所有方法的平均预测精度提升15.44%。在这种情况下OmniPRS表现尤为稳健:在身高预测中,其精度较其他方法(如LDpred-funct)提升32.34%,且与功能注释整合方法SBayesRC相比,BMI预测精度仍领先3.11%。

此外,为了应对日益增长的跨种族GWAS数据和现有模型针对非欧洲人群的预测水平较低的挑战,该研究将OmniPRS扩展到了跨种族版本的OmniPRS-x。在东亚、南亚、非洲等非欧人群的身高预测中,OmniPRS较单一族群模型精度提升55.53%,与跨种族PRS专用方法(如CT-SLEB,PRS-CSx)表现相当,为消除遗传研究中的“欧洲中心偏差”提供新路径。

图2.来自UK Biobank的多种族的身高预测。注:红色:在欧洲(EUR)祖先的GWAS中训练的PRS模型,并使用来自UK Biobank的目标人群样本进行验证,包括(A)东亚人群(EAS)、(B)南亚人群(SAS)、(C)美洲人群(AMR)和(D)非洲人群(AFR);橙色:在目标人群中训练和验证的PRS模型;蓝色:在基础人群和目标人群中训练的PRS模型,用于在目标人群的UKB人群中进行跨种族预测。不同人群的GWAS汇总统计数据来自GIANT数据库(PMID:36224396)。

OmniPRS是对全基因模型理论在应用层面的一次大胆尝试,揭示了组织特异性调控网络在复杂疾病中的关键作用,并为PRS的临床转化提供了有效的工具。OmniPRS目前也存在一些局限性,例如对罕见变异的覆盖程度、跨性状和跨人群预测性能都还存在不足。未来计划通过整合多人群数据和优化注释模型,进一步提升遗传风险预测的准确性和适用性。

OmniPRS的代码和R包已开源(GitHub: https://github.com/biostatShao/OmniPRS),供全球科研人员免费使用,也欢迎跨学科合作,共同推动精准医学的发展。

10.1016/j.xgen.2025.100850

制版人: 十一

学术合作组织

战略合作伙伴

来源:科学小镇

相关推荐