摘要:近年来,全球范围内涌现了很多大型生物样本库(Biobank),为全基因组关联研究(GWAS)提供了重要的研究资源。基于电子健康记录,生物样本库的研究范畴已从传统的数量性状、质量性状拓展到结构更为复杂的数据形式。例如,生存数据表型既可以描述事件是否发生,也可以描
近年来,全球范围内涌现了很多大型生物样本库(Biobank),为全基因组关联研究(GWAS)提供了重要的研究资源。基于电子健康记录,生物样本库的研究范畴已从传统的数量性状、质量性状拓展到结构更为复杂的数据形式。例如,生存数据表型既可以描述事件是否发生,也可以描述事件发生的时间;多分类表型可以更准确描述个体的健康、亚健康和疾病状态,比传统的二分类表型更全面和细致;在多时间点重复测量的数量性状常被称为纵向数据表型,其能够表征健康状况的动态演变规律。基于这些更复杂数据形式的表型数据进行GWAS可以更有效识别出与健康状况密切相关的遗传变异,为解析复杂性状的遗传结构提供全新视角。
基因环境交互作用(Gene-Environment Interaction, G×E)是指基因和环境因素共同作用于个体性状或疾病风险的现象。具体来说,基因的作用可能会因环境的不同而改变,而环境对个体的影响也可能因基因的差异而有所不同。针对大型生物样本库的全基因组基因-环境交互作用分析存在样本量大、表型分布不平衡、样本之间具有亲缘相关性、样本具有复杂的群体结构等实际困难。针对数量性状和质量性状,已有算法可以处理上述困难【1-3】。但针对更复杂结构的数据形式,比如生存数据表型、多分类数据表型和纵向数据表型,仍缺乏有效的解决方案,这也导致基因-环境交互作用分析尚未得到充分发展。
2025年3月29日,北京大学基础医学院的毕文健团队与中国科学院数学与系统科学研究院张纪峰、赵延龙团队合作,在Nature Communications期刊发表工作Efficient and accurate framework for genome-wide gene-environment interaction analysis in large-scale biobanks。该工作提出了一个针对复杂数据结构表型的通用基因-环境作用分析框架SPAGxECCT,并基于数值模拟和UK Biobank实际数据分析验证了算法的有效性,找出了多个显著的具有基因-环境交互作用的遗传位点。
SPAGxECCT算法具有以下特性:1)用鞍点近似-正态分布分析混合策略,提升分析准确性的同时兼顾运算速度;2)适用于多种复杂数据结构表型(数量表型、质量表型、生存表型和多分类表型等)的分析;3)可扩展至SPAGxEmixCCT算法,适用于跨种族或混合人群的分析;4)可扩展至SPAGxEmixCCT-local算法,利用局部血统(local ancestry)以提升针对混合人群分析的统计效力;5)可扩展至SPAGxE+算法,适用于具有亲缘相关性样本的分析。R包可在网站下载(https://github.com/YuzhuoMa97/SPAGxECCT)。
北京大学基础医学院22级博士生马雨茁为本文的第一作者,北京大学基础医学院毕文健研究员为本文的通讯作者。中国科学院数学与系统科学研究院张纪峰研究员和赵延龙研究员是本项工作的主要贡献者。
毕文健博士毕业于中国科学院数学与系统科学研究院,先后在美国圣裘德儿童研究医院和密歇根大学从事博士后研究,在领域内具有重要影响的期刊或会议上发表学术论文30余篇。作为第一作者或通讯作者,部分工作发表于Nature Genetics (2022), The American Journal of Human Genetics (2019, 2020, 2021, 2023), Nature Communications (2025a, 2025b, 2025c), Genetics, Biostatistics等期刊。毕文健博士于2021年6月加入北京大学基础医学院组建统计遗传学、生物信息学实验室,2021年度入选国家级青年高层次人才计划,主持国家自然科学基金面上项目、智慧诊疗专项项目、中韩国际合作项目,参与科技部重点专项等项目。研究方向涉及全基因组关联分析、生物医学大数据分析、基于人工智能的遗传学分析等相关算法设计。现因科研工作需要,公开招聘博士后1-2名,数据分析员1-2名,实验室管理人员1名。欢迎感兴趣的研究人员应聘。新录用人员的人事管理方式按北京大学相关规定执行。招聘将坚持公开、公平、竞争、择优的原则,经面试考核后择优录取,待遇优厚。
详情可见课题组网站https://www.x-mol.com/groups/wenjianb。
制版人: 十一
参考文献
1 Zhong, W., Chhibber, A., Luo, L., Mehrotra, D.V. & Shen, J. A fast and powerful linear mixed model approach for genotype-environment interaction tests in large-scale GWAS.Briefings in Bioinformatics24, bbac547 (2023).
2 Bi, W. et al. A fast and accurate method for genome-wide scale phenome-wide G×E analysis and its application to UK Biobank.The American Journal of Human Genetics105, 1182-1192 (2019).
3 Westerman, K.E. et al. GEM: scalable and flexible gene–environment interaction analysis in millions of samples.Bioinformatics37, 3514-3520 (2021).
学术合作组织
(*排名不分先后)
战略合作伙伴
来源:暴躁科学家