Nature | 利用lentiMPRA技术大规模解码人类转录调控元件

B站影视 2025-02-03 17:34 2

摘要:顺式基因调控元件(cCREs) 是调控基因表达的DNA序列,它们在健康和疾病中起着至关重要的作用【1】。然而,人类基因组中包含数百万个cCREs (candidate cis-regulatory element) ,其中许多具有组织或细胞类型特异性,其功能特

撰文 | 格格

顺式基因调控元件(cCREs) 是调控基因表达的DNA序列,它们在健康和疾病中起着至关重要的作用【1】。然而,人类基因组中包含数百万个cCREs (candidate cis-regulatory element) ,其中许多具有组织或细胞类型特异性,其功能特征尚不清楚。cCREs中的序列变异是许多人类疾病的主要诱因,例如大多数全基因组关联研究 (GWAS) 都涉及包含远端cCREs (如增强子) 的非编码单倍型。因此,理解cCREs的功能和变异效应对于疾病研究和治疗至关重要。

目前,对cCREs功能的理解主要依赖于描述性方法,例如基因组范围的开放染色质、转录因子结合、组蛋白修饰和mRNA表达水平的鉴定【2】。这些方法虽然能够发现大量的cCREs,但无法确认任何给定的cCREs是否具有功能性。大规模并行报告实验 (MPRA) 可以克服这些局限性,它通过在多路复用方式下测试数千个序列或变体的调控活性,来评估其功能【3】。然而,传统的MPRA依赖于瞬时的转染,提供了一种额外的 (“基因组外”) 读数,并且主要限于可以稳定转染和大量培养的成熟细胞类型。

近日,来自美国华盛顿大学基因组科学系的Vikram Agarwal和Jay Shendure研究团队以及加利福尼亚大学旧金山分校生物工程与治疗科学系的Nadav Ahituv研究团队合作在Nature杂志发表题为Massively parallel characterization of transcriptional regulatory elements的研究论文,该研究通过优化lentiMPRA(一种基于慢病毒的MPRA)技术并扩大其应用范围,来解析人类基因调控网络的复杂性。研究人员将测试大量 cCREs 的功能,并利用这些数据来构建基于序列的模型预测cCRE功能和变异效应,并识别与细胞类型特异性相关的生化和序列特征。

研究人员首先对lentiMPRA技术进行了优化,通过在文库扩增步骤中添加随机条形码来提高其可重复性和多路复用性。他们设计了两个pilot库,分别包含HepG2和K562细胞中的 cCREs,以及一系列正负对照序列。通过将文库感染细胞并进行DNA和RNA条形码测序,研究人员验证了lentiMPRA技术的可靠性和准确性。结果显示,每个cCRE的活性得分具有较高的可重复性,且与预期结果一致。研究人员利用优化后的lentiMPRA技术对三种细胞类型中的大量cCREs进行了功能表征。他们测试了所有已知的蛋白质编码基因启动子以及潜在的增强子 (DNase高敏感性峰) ,并分析了它们的方向依赖性。结果显示,启动子表现出轻微的方向依赖性,而增强子则表现出更弱的依赖性。此外,研究人员还发现,增强子比启动子具有更强的细胞类型特异性。

接着,研究人员分析了核心启动子区域 (TSS附近200个核苷酸) 的活性效应。他们发现,这些区域能够以与关联基因相似的强度驱动表达,并且富含CpG富集的基序和与转录起始复合物相互作用的转录因子家族成员。这表明核心启动子具有弱的细胞类型特异性,但能够有效地驱动基因表达。此外,研究人员训练了基于序列的深度学习模型 (MPRALegNet) 来预测cCREs的活性。结果表明,MPRALegNet在所有三种细胞类型中都表现出优于基于生物化学特征的模型的预测性能。此外,研究人员还使用ISM和TF-MoDISco-lite等工具分析了 MPRALegNet学习的转录因子结合位点的组合效应,并发现MPRALegNet能够有效地模拟 转录因子结合位点 (TFBS) 组合的非线性相互依赖性。

研究人员设计了一个包含三种细胞类型共同cCREs的lentiMPRA库,并分析了cCREs在不同细胞类型中的活性。结果表明,启动子表现出最强的细胞类型相关性,而增强子则表现出较弱的细胞类型相关性。此外,研究人员还使用主成分分析和元素特异性得分来量化cCREs 的细胞类型特异性,并发现MPRALegNet能够有效地预测cCREs的细胞类型特异性活性。他们还发现,增强子比启动子具有更强的细胞类型特异性,这与它们的功能特性一致。

最后,研究人员使用TF-MoDISco-lite等工具识别了MPRALegNet学习的细胞类型特异性TFBS。他们发现,不同细胞类型中富集的TFBS存在差异,这表明细胞类型特异性活性是由少数特定的转录因子驱动的。进一步,研究人员将MPRALegNet模型应用于遗传精细映射和变异效应预测。他们发现,MPRALegNet能够成功地识别与内源性基因表达水平相关的等位基因特异性调控单核苷酸多态性 (SNP) 效应。此外,他们还使用饱和突变数据验证了 MPRALegNet在预测特定cCREs的变异效应方面的准确性。

总之,该研究研究通过优化lentiMPRA技术并扩大其应用范围,对三种人类细胞类型中的 cCREs进行了大规模的功能表征。研究结果揭示了cCREs的活性特征和细胞类型特异性,并为预测调控活性和变异效应提供了新的见解。这些数据将有助于我们更好地理解基因调控网络的复杂性,并为疾病研究和治疗提供新的思路。

制版人:十一

参考文献

1. Chatterjee, S. & Ahituv, N. Gene Regulatory Elements, Major Drivers of Human Disease.Annu. Rev. Genomics Hum. Genet.18, 45–63 (2017).

2. Alexander, R. P., Fang, G., Rozowsky, J., Snyder, M. & Gerstein, M. B. Annotating noncoding regions of the genome.Nat. Rev. Genet.11, 559–571 (2010).

3. Inoue, F. & Ahituv, N. Decoding enhancers using massively parallel reporter assays.Genomics106, 159–164 (2015).

BioART战略合作伙伴

(*排名不分先后)

BioART友情合作伙伴

来源:小圆科技园地

相关推荐