哈佛团队打造AI驱动的分子水平“显微镜”

B站影视 欧美电影 2025-04-02 12:07 1

摘要:近日,美国哈佛大学博士生胡彦和所在团队开发出一种新型计算生物学技术,能以高通量的方式精准预测数以百计的转录因子在上百种细胞状态或细胞类型内的结合位置,从而能够助力于更有效地解码细胞内的基因调控网络,相关论文于近期发表在Nature。

近日,美国哈佛大学博士生胡彦和所在团队开发出一种新型计算生物学技术,能以高通量的方式精准预测数以百计的转录因子在上百种细胞状态或细胞类型内的结合位置,从而能够助力于更有效地解码细胞内的基因调控网络,相关论文于近期发表在 Nature

具体而言,研究团队利用一种名为 ATAC-seq 的已有技术,使用一种名为 Tn5 的酶切割 DNA,并且通过测序技术确定切割的位置。通过以单碱基对的分辨率分析 DNA 上每个位置被切割的频率,他们发现 DNA 上没有被转录因子或其他调控蛋白结合的区域,由于更加暴露会更容易被切割,因此会显现较高的切割频率。DNA 上被转录因子或其他调控蛋白结合的区域,会被结合的蛋白所保护以及遮挡,导致 Tn5 无法有效切割这些区域,而这些区域也因此显现出较低的切割频率,从而形成低切割频率的“脚印”,这个方法也因此被称为 DNA 足迹法。

通过找到这些切割频率较低的区域,便可以确定调控蛋白的结合位点。打个比方,下雨天被树遮挡的地方不会被雨打湿,而不被遮挡的地方地面则会湿透。如果不能直接观察到树的位置,可以通过观察地面哪些区域是干燥的来确定树在哪里。正因此,课题组将本次技术称为 PRINT(protein–regulatory element interactions at nucleotide resolution using transposition)。

在观测到一个转录因子留下的“脚印”后,如何确定到底是哪个转录因子结合的?事实上,不同转录因子在结合 DNA 的时候会识别不同的 DNA 序列,通过比对脚印下方的 DNA 序列,可以比较准确地判断所结合的到底是哪一个或哪一类转录因子。

研究中发现,Tn5 本身对于切割不同的 DNA 序列有着较为明显的偏好,这也对转录因子结合的检测造成了极大的干扰。为此,团队成员使用神经网络模型针对 Tn5 的序列偏好进行建模,并且将其造成的干扰有效去除,以便能够准确地观察到真正转录因子结合留下的脚印,并且能够测定转录因子的结合位置。

此外,即使在同一个 DNA 调控元件内,不同 DNA 结合蛋白的尺寸也有可能会相差甚远。受到信号处理领域小波分析的启发,他们使用不同半径的区间来检测蛋白结合的脚印,借此实现了对于不同物理尺寸的 DNA 结合蛋白的同时检测。

正因此,在同一个 DNA 区域内他们可以观察到下至转录因子、上至核小体在 DNA 上的结合。基于此,他们将这一方法称之为多尺度足迹法(multiscale footprinting)。

图 | PRINT 的流程示意图(来源:Nature

研究中,他们更进一步地思考:DNA 序列在多大程度上决定了调控蛋白的结合位置?为了解决这个问题,他们训练出一款名为 seq2PRINT 的深度学习神经网络模型,尝试使用 DNA 序列作为模型的唯一输入来预测同一区域内蛋白质结合的位置和强度。

借此发现:仅仅用 DNA 序列,seq2PRINT 便可以较为准确地预测不同蛋白质的结合。通过提取模型学习到的序列特征,他们发现 seq2PRINT 主要依赖区域内的转录因子识别序列的位置排布,来预测各种蛋白包括核小体的结合。

令他们非常意外的是,seq2PRINT 准确地捕捉到了被转录因子结合的序列(即使是本身并不留下任何脚印的转录因子)。

这一点格外值得强调,因为许多转录因子结合 DNA 要么非常短暂、要么结合强度较弱,这就导致它们并不能有效地保护结合之后的 DNA 去避开 Tn5 切割,进而导致这些转录因子无法降低 Tn5 切割的频率,也不能留下可见的脚印,以至于成为了“隐形”的转录因子。

通过传统的 DNA 足迹法,很难检测这些因子的结合。然而,基于 DNA 序列的深度学习模型,通过捕捉这些“隐形”转录因子的识别序列以及附近可见的蛋白脚印之间的依赖关系,可以有效捕捉到这些“隐形”转录因子的存在,进而能够高效地跟踪这些转录因子的行动。

图 | Seq2PRINT 捕捉到转录因子在 DNA 上的结合(上图:实际观测到的多尺度蛋白足迹(multiscale-footprints)以及 seq2PRINT 预测的多尺度蛋白足迹对比。下图:seq2PRINT 捕捉到的对各个蛋白足迹有预测作用的转录因子结合序列)(来源:Nature

使用 ATAC-seq 以及 Tn5 测定蛋白的结合也提供了一个独特的机会:ATAC-seq 可以完美地和单细胞测序结合,从而能够提供单个细胞内 Tn5 切割 DNA 的位置数据。这使得研究人员可以在单细胞数据集里,通过计算生物学的方法,来找到不同的细胞类型或者细胞状态。并能使用 PRINT/seq2PRINT 追踪蛋白在不同细胞类型和状态下的结合位点变化。

研究中,他们使用 SHARE-seq 针对人类骨髓样本进行测序,获得了接近九十万个细胞的 RNA 以及 ATAC-seq 的多组学数据,涵盖了从造血干细胞到各种分化状态的血细胞在内的多种细胞类型。基于此数据,他们使用 seq2PRINT 追踪了转录因子和其他调控蛋白在不同分化阶段的结合位点,解码了转录因子在分化过程中的结合变化。

传统使用 ATAC-seq 的研究普遍关注每个调控元件在关闭/打开两个状态间的切换,而本次研究结果表明:在不同细胞状态下,每个单独的调控元件可以被多种不同组合的转录因子结合,从而呈现出在打开/关闭之外多个更复杂的调控状态。

此外,他们还观察到了启动子和增强子在红细胞分化过程中逐步建立的过程,以及不同转录因子按顺序抵达 DNA 的过程。

最后,他们使用 PRINT/seq2PRINT 来研究小鼠造血干细胞衰老过程中基因调控的变化,借此发现许多转录因子在衰老过程中结合位点增加例如 Gata、AP-1、Runx 等,并发现了许多转录因子的结合下降例如 Yy1、Ctcf、和 Nrf1 等。

利用 Seq2PRINT 他们还捕捉到了不同 TF 作为伴侣共同结合 DNA 的行为,尤其以 Runx 和 Ets 因子作为二聚体共同结合 DNA 并且随衰老上调的这一行为最为典型,这预示着这些因子可能在干细胞衰老中发挥作用。

总而言之,PRINT/seq2PRINT 为研究基因调控、尤其是为研究 DNA 调控元件和转录因子提供了有力的新工具,可以让人们在更高的分辨率和精度下观测基因调控的过程,并为发育和再生生物学以及疾病和衰老相关的研究提供了新的机会。

(来源:Nature

研究人员希望本次技术可以帮助更多的科学家揭示转录因子如何在不同的细胞、组织和器官里调控基因表达,从而帮助他们发现转录因子的新功能,以及找到驱动疾病进程的转录因子。

事实上,在本次研究之前,已经有其他研究使用 DNase I 和 MNase 等不同的酶来通过 DNA 足迹法确定蛋白质在 DNA 上的结合位置。然而,这些方法都很难和单细胞测序的方法整合在一起。

一直以来,该团队都希望可以将 DNA 足迹法和单细胞方法加以结合,以便研究含有复杂细胞类型的生物系统内各个细胞类型的基因调控。

由于近年来单细胞 ATAC-seq(single cell ATAC-seq, scATAC-seq)的技术逐渐成熟,以及单细胞多组学的快速进步,他们意识到眼下是一个使用 ATAC-seq 来实现单细胞数据上的蛋白质结合检测的好时机,基于此他们启动了本次课题。

研究中,他们的早期工作主要集中于如何去除 Tn5 本身序列偏好的干扰,以及建立可靠的统计模型检测蛋白质的结合。经过一番努力,他们建立了一个有效的方法,从而能够准确地检测不同尺寸蛋白质在 DNA 上的结合。

在课题的中后期,一个一直难以解决的问题是:检测结合力较弱或者结合时间较短的转录因子。这些转录因子并不会对 DNA 有足够强的保护,因此在它们的信号里也没有留下显著的“脚印”。

研究人员一度认为可能没有办法通过 ATAC-seq 来检测它们的存在,直到有一天研究人员突然有了一个想法:也许这些“隐形”的转录因子和其他能留下可见足迹的蛋白质之间有足够强的依赖和约束关系,以至于也许可以通过 AI 的帮助,利用可见的信号来预测这些不可见的蛋白的结合状态?

针对这个想法的实现方法,课题组迭代了许多版本。最终,他们发现使用 DNA 序列预测可见蛋白足迹的模型 seq2PRINT,能够捕捉到这种他们预判已久的依赖关系,并且可以准确地预测到“隐形”转录因子的结合位置。

同时,这也是因为他们最开始构建 seq2PRINT 只是为了研究 DNA 序列和蛋白结合的依赖关系,而并不是为了预测转录因子的结合。“所以,这也算是通过非常预料之外的方式解决了我们的问题。”胡彦表示。

日前,相关论文以《多尺度足迹揭示了顺式调控元件的组织》(Multiscale footprints reveal the organization of cis-regulatory elements)为题发在 Nature[1],博士生胡彦、博士后张若驰、博士后麦克思·霍尔贝克(Max Horlbeck )为共同第一作者,哈佛大学杰森·D·布恩罗斯托(Jason D. Buenrostro)教授担任通讯作者。

图 | 相关论文(来源:Nature

未来,胡彦希望能将本次技术用于人类疾病研究,例如心血管疾病领域,即研究基因调控元件和转录因子在心血管疾病,尤其是研究衰老相关的心血管疾病中的作用。

同时,其希望通过将本次技术用于心血管系统的单细胞多组学数据,来研究到底是哪些基因、哪些通路和哪些转录因子参与了疾病发生和发展的重要步骤。最终,其希望可以开发出能够预防或治疗衰老相关疾病的新方法。

来源:东窗史谈一点号

相关推荐