摘要:人类基因组中存在着大量的罕见变异,而这些变异与疾病存在紧密的联系。绝大多数遗传疾病和部分复杂疾病的致病基因是通过鉴定功能性罕见变异发现的,表明识别功能性罕见变异对疾病诊断和致病基因的鉴定至关重要。然而,绝大多数罕见变异位于非编码区域,为解析其分子功能带来了巨大
人类基因组中存在着大量的罕见变异,而这些变异与疾病存在紧密的联系。绝大多数遗传疾病和部分复杂疾病的致病基因是通过鉴定功能性罕见变异发现的,表明识别功能性罕见变异对疾病诊断和致病基因的鉴定至关重要。然而,绝大多数罕见变异位于非编码区域,为解析其分子功能带来了巨大挑战。由于这些变异通常不直接影响蛋白质序列,而是通过调控邻近基因的表达等机制来影响疾病的发生发展。近期研究发现,罕见非编码变异可影响临近基因的转录水平或可变剪切水平,并基于此开发了新的疾病相关功能性罕见变异识别和诊断方法【1-3】。然而目前,仅极少部分功能性罕见非编码变异得到解释。转录后调控过程,如选择性多聚腺苷酸化(Alternative polyadenylation,APA) ,是重要的基因转录后调控步骤,与细胞功能及人类疾病关系密切。然而,其是否能帮助解析功能性罕见变异仍不清楚。
2025年1月16日,深圳湾实验室系统与物理生物学研究所李磊团队联合复旦大学生命科学学院倪挺教授,加州大学尔湾分校李蔚教授等团队在Nature Communications在线发表了题为Impact of rare non-coding variants on human diseases through alternative polyadenylation outliers的研究论文,系统解析了人类基因组中一类全新的与疾病相关的功能性罕见非编码区变异,为理解遗传疾病尤其是罕见病关联的变异提供全新的思路和解析方法。
课题组邹旭东博士首先利用课题组及合作团队前期开发的APA定量分析算法全面分析了来自838个个体49种不同组织的转录组数据(图1a),通过分析鉴定了1500多个APA异常调控事件 (aOutlier) ,构建了首个人类多组织APA异常调控参考图谱。进一步比较分析发现,超过74%的APA异常调控与传统的基因表达和可变剪接异常事件没有发生交集,表明绝大多数APA异常调控事件独立于传统的分子调控过程。以基因SUGP1为例,该基因在人群中主要使用近端APA位点 (对应短的3′ UTR) ,作者发现有极少个体中该基因使用远端APA位点 (对应长3′ UTR) ,而通过传统的基因表达和可变剪切分析,均没有发现异常表现的个体(图1b-c)。为了进一步研究人群中的非编码区罕见变异对APA异常调控的影响,作者联合分析了上述aOutlier参考图谱和对应个体基因组变异数据,发现aOutlier异常基因附近显著富集了一类新的功能性非编码罕见变异,且这些罕见变异显著富集在3’UTR和可变剪接区域,表明罕见变异是aOutlier的潜在驱动因素。
图1. 基于群体多组学数据异常值分析识别遗传疾病相关罕见非编码变异。
此外,作者开发了基于贝叶斯模型的功能性罕见非编码变异预测方法aWatershed,进一步拓展aOutlier参考图谱的应用(图2a)。该模型整合了传统的基因组注释特征和基于转录组数据的多模态信息,以aOutlier基因附近罕见变异的基因组功能注释及aOutlier效应值为模型特征进行训练,并预测目标罕见变异的APA调控功能打分。通过测试数据的评估,整合多模态信息的aWatershed模型表现显著优于仅使用单模态信息的RIVER模型和基于基因组注释的回归模型 (GAM)(图2b)。利用该模型,作者从英国生物数据库的全基因组关联分析数据中分析发现了大量APA介导的疾病易感性罕见变异。以身高和高血压两种常见性状为例,作者通过aWatershed模型分别预测发现两个APA相关的罕见变异 (rs112567314位于基因CUL3的内含子和rs149094812位于基因USP38的内含子) 在对应的GWAS分析中具有更高的效应值 (effect size) 。
图2. aWatershed预测模型及模型评估结果。
最后,作者发现aWatershed预测的APA相关罕见变异与APA介导的常见变异存在显著的相关性,表明两者存在协同调控效应。以基因DDX18 (编码RNA解旋酶家族成员蛋白) 为例,作者阐明了位于该基因3′ UTR上常见变异和罕见变异协同调控其3’末端APA选择,进而影响其翻译水平和疾病风险。DDX18被报道与多种癌症相关,作者通过APA数量性状基因座与癌症GWAS共定位分析发现该基因是乳腺癌的易感基因。该基因的3′ UTR上有两个变异rs1052628 (常见变异) 和rs1680042046 (罕见变异) 均能调控其APA的选择,作者在HEK293T和MCF7细胞系中构建报告基因和3′ RACE实验证明了两个变异均能独立改变DDX18的APA选择,而且,两者同时存在时,APA的变化更为显著。随后,通过使用luciferase实验,作者证实这两个变异调控DDX18的APA选择是直接影响它的蛋白质水平。最后,作者在MCF7细胞系中对该基因进行敲降,并分析细胞增殖,结果证明DDX18的敲降能显著降低MCF7的增殖,从而证实其在癌症的发生发展中的重要作用。
综上所述,作者通过开发新的生物信息学分析方法从大规模群体转录组和基因组数据中识别了一类全新的与人类遗传疾病相关的罕见非编码变异。为个体化基因组注释,尤其是非编码区功能注释提供了全新的计算框架。
李磊课题组助理研究员邹旭东博士为该论文第一作者, 复旦大学赵昭昭博士和陈宇博士为该论文的共同第一作者,课题组熊可为、王泽杨博士、陈淑馨、陈慧等对该论文做出了贡献。李磊特聘研究员为最后通讯作者,复旦大学倪挺教授和加州大学尔湾分校李蔚教授为论文的共同通讯作者。复旦大学卫功宏教授,徐书华教授也对论文做出了重要贡献。
深圳湾实验室计算与疾病基因组学课题组 (https://bioinfo.szbl.ac.cn/) 长期致力于开发和运用新生物信息方法以精准解析新型功能非编码元件在人类重大疾病中的分子机理,旨在从临床组学数据挖掘潜在的疾病精准诊断和治疗靶点。自2021年课题组成立以来已经发表17篇高水平研究论文,其中13篇为通讯作者论文。指导组内研究生/博士后获得多项重要国际及国内荣誉奖项,包括2024年美国人类遗传学研究奖等。研究成果也获得国际知名制药公司资助,进行临床转化研究。真诚邀请欢迎有志于生物信息学的的科研工作者(助理研究员/博士后/博士研究生)加入我们的课题组。
制版人:十一
参考文献
1. N. M. Ferraro et al., Transcriptomic signatures across human tissues identify functional rare genetic variation.Science369, (2020).
2. X. Li et al., The impact of rare variation on gene expression across tissues.Nature550, 239-243 (2017).
3. L. Fresard et al., Identification of rare-disease genes using blood transcriptome sequencing and large control cohorts.Nat Med25, 911-919 (2019).
BioART战略合作伙伴
(*排名不分先后)
BioART友情合作伙伴
来源:老王的科学大讲堂