摘要:研究人员利用先进技术分析控制基因表达的 DNA 元素,揭示了它们在不同细胞类型中发挥的不同功能。他们的机器学习模型 MPRALegNet 可以准确预测基因活动并识别关键的调控序列,为疾病机制提供见解并助力未来的基因组研究。
研究人员利用先进技术分析控制基因表达的 DNA 元素,揭示了它们在不同细胞类型中发挥的不同功能。他们的机器学习模型 MPRALegNet 可以准确预测基因活动并识别关键的调控序列,为疾病机制提供见解并助力未来的基因组研究。
新的研究加深了我们对人类基因组功能的理解。
一个国际研究小组在了解人类基因组中基因表达如何受到调控方面取得了重大进展。在最近的一项研究中,他们对顺式调控元件 (CRE)(控制基因转录的 DNA 序列)进行了全面分析。这项研究提供了宝贵的见解,让我们了解 CRE 如何驱动细胞特异性基因表达,以及这些区域的突变如何影响健康和导致疾病。
CRE,例如增强子和启动子,在决定基因何时何地被激活或沉默方面起着至关重要的作用。尽管它们的重要性众所周知,但大规模分析它们的活性一直是一项长期的挑战。
“人类基因组包含大量 CRE,这些区域的突变被认为在人类疾病和进化中发挥着重要作用,”这项研究的共同第一作者之一井上文隆博士解释说:“然而,很难全面量化它们在整个基因组中的活性。”
为了解决这个问题,该团队使用了一种尖端技术,即基于慢病毒的大规模并行报告基因检测 (lentiMPRA),这是作者之前开发的。这种方法能够同时分析数千个 CRE,方法是用独特的DNA条形码标记它们以追踪它们的活动。
研究人员应用 lentiMPRA 检查了三种广泛使用的细胞类型中多达 680,000 种候选 CRE:肝细胞(来自肝脏的细胞)、淋巴细胞(一种白细胞)和诱导性多能干细胞(一种由正常体细胞制成的人工干细胞)。
人类染色体。图片来源:ASHBi/京都大学
这项研究揭示了几个关键的见解。在三种细胞类型中,大约 41.7% 的分析 CRE 表现出活性。启动子(启动基因转录)表现出对序列方向的依赖性,但对细胞类型的特异性较低。增强子(促进基因转录)无论方向如何都具有活性,并表现出细胞类型特异性。这些发现凸显了这两种 CRE 功能之间的根本区别。
这项研究开发了几种机器学习模型,以基于大规模实验数据预测 CRE 的调节活性。MPRALegNet 是一种在庞大的 lentiMPRA 数据集上训练的模型,被发现在预测任何 DNA 序列的调节活性方面最准确、最有效。它的预测与实验结果非常吻合,在某些情况下表现与实验重复一样好。
该模型还展示了其识别重要转录因子结合基序(即决定 CRE 活性的短 DNA 序列)的能力,从而深入了解特定因素如何驱动细胞类型特异性基因表达。例如,该研究确定 HNF4 和 GATA 基序分别对肝细胞和淋巴细胞中的活性至关重要。
通过精确识别和量化增强子活性,这项研究为探索人类疾病的分子机制开辟了道路。未来的研究将侧重于应用这种方法来研究遗传多态性,即导致个体差异和疾病易感性的 DNA 序列变异。
井上博士表示:“最近,人类基因组几乎已完成测序,但其大部分功能区域仍未知。我们的发现将 DNA 序列信息与其功能作用联系起来。我们希望这些结果将有助于更深入地了解生物现象,包括人类疾病和进化。”
这项研究还为ENCODE 门户网站贡献了一个可公开访问的 CRE 活动数据库,为全球研究人员提供了宝贵的资源。通过将大规模实验数据与机器学习相结合,这项工作为未来基因组学和个性化医疗的发现奠定了基础。此外,使用 lentiMPRA 和 MPRALegNet 等工具将有助于研究人员更好地解开基因调控的复杂性并探索人类基因组的广阔未知领域。
参考文献:“大规模并行表征转录调控元件”,作者:Vikram Agarwal、Fumitaka Inoue、Max Schubach、Dmitry Penzar、Beth K. Martin、Pyaree Mohan Dash、Pia Keukeleire、Zicong Zhang、Ajuni Sohota、Jingjing Zhao、Ilias Georgakopoulos-Soares、William S. Noble、Galip Gürkan Yardımcı、Ivan V. Kulakovskiy、Martin Kircher、Jay Shendure 和 Nadav Ahituv,2025 年 1 月 15 日,《自然》。DOI:10.1038/s41586-024-08430-9
来源:康嘉年華