摘要:Genomics, Proteomics & Bioinformatics (GPB)在线发表了中国科学院遗传与发育生物学研究所王秀杰团队完成的题为“DRED: A Comprehensive Database of Genes Related to Repe
Genomics, Proteomics & Bioinformatics (GPB)在线发表了中国科学院遗传与发育生物学研究所王秀杰团队完成的题为“DRED: A Comprehensive Database of Genes Related to Repeat Expansion Diseases”的数据库文章。“要文译荐”栏目很高兴邀请到文章第一作者史庆庆博士为大家解读短串联重复序列扩增相关致病基因数据库DRED的构建与应用。
要点介绍
研究问题:
人类基因组中短串联重复序列(short tandem repeats,STRs)的异常扩增通常会导致严重的神经退行性疾病或神经肌肉病变,例如脆性X染色体综合征、亨廷顿病和脊髓小脑性共济失调等。对已知可因STRs扩增而致病的基因进行系统梳理,有助于科研与医务人员更全面地理解相关疾病,以便开展相关致病机制和诊疗方法的研究。但目前尚未建立专门收录STRs扩增相关致病基因的数据库。
研究方法:
从公共数据库(PubMed和OMIM)中收集和整理所有STRs扩增相关疾病及其致病基因,并收集这些基因的注释、扩增的STRs、STRs致病扩增频次、人群变异情况等多种信息,汇编成一个可供用户迅速检索的数据库。最后,基于这些STRs序列的特征(如Alu元件、CpG岛、TAD边界和STRs拷贝数变异等),预测人类基因组中其它可能因STRs扩增而致病的基因。
主要结果:
1. 收集所有通过STRs扩增而导致疾病的基因(61个致病基因和64个疾病条目)以及相应的参考数据。
2. 以已知STRs扩增致病基因的序列特征为训练集,利用机器学习方法,预测出516个可能通过STRs序列扩增致病的人类基因。
3. 开发了一个用户友好的数据库网站DRED,提供快速浏览和检索功能,可为STRs扩增相关疾病的基础研究和医学诊断提供数据资源。
背景介绍
重复序列也被称为“重复元件”,在人类基因组序列中的占比超过50%。长度较短的STRs容易在DNA复制、修复或重组过程中发生拷贝数的变化,从而导致STRs所在基因的功能异常,进而诱发遗传疾病。由STRs异常扩增而导致的疾病大多为神经疾病、神经肌肉病或神经退行性疾病,如CGG扩增可导致脆性X染色体综合征,CAG扩增可导致亨廷顿舞蹈症,GAA扩增可导致Friedreich共济失调等。由于STRs扩增的拷贝数会在世代间累积并持续增多,因此STRs扩增导致的疾病会在连续的世代中出现发病年龄逐渐提前和病情不断加重的情况,这种现象被称为“遗传早现”。目前已知的通过STRs扩增而导致的疾病有64种,但这些疾病的致病STRs序列及其致病的拷贝数阈值等信息均分散于不同报道中,尚缺乏统一的STRs致病基因数据库。此外,人类基因组中是否还存在其他可能通过STRs扩增而导致疾病的基因也尚未可知。因此,非常有必要建立针对STRs扩增致病基因的数据库,并对潜在的STRs扩增致病基因进行预测。
数据库介绍
DRED数据库中包含61个已知STRs扩增致病基因和基于预测分析得到的516个可能通过STRs扩增而导致疾病的基因。
数据库的主要功能
“Browse”模块允许用户依次查看所有已知的STRs扩增相关疾病,详细了解每个疾病相关的致病基因、致病重复序列、重复单元的拷贝数、以及相关佐证等信息(图 1)。这些疾病和基因根据STRs特征分组展示,包括 “Polyalanine (GCC) track”、“Polyalanine (GCG) track”、“Polyaspartic-acid (GAC) track”、“Polyglutamine (CAG) track”、“Other amino acid track”和“Noncoding repeats”(图 2)。
图1 已知短串联重复序列扩增相关疾病的列表
图2 已知短串联重复序列扩增疾病及其致病基因的分类
“Search”模块允许用户通过关键字搜索以快速查找已知的STRs扩增疾病与致病基因(图3)。网站也提供交互式3D词云功能,滚动显示所有已知的STRs扩增相关疾病和对应的基因名称。
图3 DRED数据库的检索功能
“Prediction”模块展示基于已知STRs扩增致病基因的特征预测得到的可能通过STRs扩增而致病的基因集。该预测集共包含516个基因(477个蛋白质编码基因和39个非编码基因),涉及14个重复序列单元(图 4)。用户可以根据重复序列单元对预测的STRs扩增致病基因进行检索和浏览(图 5),并通过所预测基因的DRED ID等链接查看基因的详细注释、相关STRs和STRs在不同基因数据库中的变异情况等信息。
图4 预测的短串联重复序列扩增致病基因分类情况
图5 包含重复单元“CAG/GCA”的潜在致病基因展示
预测得到的潜在STRs扩增致病基因与已知的STRs扩增致病基因具有相似的STRs组成特征和致病预测评分(图 6A)。基因本体分析显示,预测的潜在STRs扩增致病基因倾向于参与神经系统和肢体发育调控(图 6B),与已知STRs扩增致病基因的功能相似,也与已知STRs扩增相关疾病主要体现为神经或神经肌肉相关缺陷的现象相一致。
图6 预测的STRs扩增致病基因集特征
总结和展望
为了满足基础研究和临床诊断的需求,我们开发了一个专门收集STRs扩增相关致病基因的数据库DRED。该数据库包含了所有已知STRs扩增相关疾病的致病基因,还预测了可能通过STRs异常扩增而致病的基因集。DRED数据库可作为研究人员和临床医生识别已知或新的STRs扩增疾病及其致病基因,并解析其分子致病机制的宝贵资源。
审校人:
GPB青年编委何光林
文章编译来源:
Shi Q, Dai M, Ma Y, Liu J, Liu X, Wang XJ. DRED: A Comprehensive Database of Genes Related to Repeat Expansion Diseases. Genomics, Proteomics & Bioinformatics 2024;5:qzae068
英文全文详见:
https://academic.oup.com/gpb/article/22/5/qzae068/7796546?login=true
作者及资助情况:
中国科学院遗传与发育生物学研究所史庆庆博士与戴敏博士为该文的共同第一作者,中国科学院遗传与发育生物学研究所王秀杰研究员为该文通讯作者。本研究得到了国家重点研发计划和北京市自然科学基金项目的支持。
GPB论文:
A Comprehensive Database of Genes Related to Repeat Expansion Diseases
来源:微生物组