Nature | 利用机器学习设计细胞特异性基因调控元件

B站影视 2024-11-30 09:08 2

摘要:顺式调控元件(Cis-regulatory elements,CREs) 是基因组中与调控基因表达相关的DNA序列。它们通常位于目标基因附近,通过影响RNA聚合酶及其他调控蛋白的结合来控制基因的表达水平【1】。CREs在组织特异性治疗和生物技术应用中具有应用潜

撰文 | 啾啾椰

顺式调控元件(Cis-regulatory elements,CREs) 是基因组中与调控基因表达相关的DNA序列。它们通常位于目标基因附近,通过影响RNA聚合酶及其他调控蛋白的结合来控制基因的表达水平【1】。CREs在组织特异性治疗和生物技术应用中具有应用潜力,但天然CREs未经过优化,不一定能完全满足这些需求。随着深度学习和高通量基因检测技术的发展【2】,研究者可以构建并测试大量合成CREs,来探索这些元件的潜力。

近日,来自MIT 和Harvard的P. C. Sabeti、S. K. Reilly和R. Tewhey研究团队在Nature上发表了题为Machine-guided design of cell-type-targeting cis-regulatory elements的文章,通过机器学习算法设计出具有高度细胞类型特异性的合成CREs,在体内和体外驱动基因表达,并与天然CREs进行性能比较,验证了合成CREs在实际应用中的有效性。

研究的起点是构建一个能够预测CRE活性的深度学习模型Malinois,该模型基于高通量平行报告基因测定(massively parallel reporter assay,MPRA) 实验数据进行训练,用于直接预测不同细胞类型中CRE序列的活性。通过分析在三个细胞类型 (K562、HepG2和SK-N-SH) 中776,474条序列的MPRA数据,Malinois模型在测试集上显示了高精度的 CREs活性预测能力 (Pearson相关系数r为0.88-0.89) 。

图1:Malinois模型精准预测CRE在表观报告基因中的转录激活

在Malinois模型构建完成后,研究者开发了一个名为CODA的设计平台。CODA通过一系列优化算法 (如进化算法、模拟退火和梯度优化) ,从模型预测的最佳序列中筛选出具有特定细胞类型特异性的CRE。这一步的输出了数千个合成CRE序列,那么这些序列是否具有功能呢?通过MPRA测量CREs在不同细胞类型中的活性,研究者观察到合成序列在细胞特异性上优于天然序列。此外,Fast SeqProp方法生成的合成CRE在目标细胞中的表达活性最强,并在非目标细胞中的抑制效果最佳。

图2:CODA高效设计细胞类型特异性CREs

为了进一步评估合成CREs在复杂生物系统中的表现,研究者在斑马鱼和小鼠模型中部分验证合成CREs。结果显示,合成CRE在斑马鱼的肝脏和神经系统中表现出目标细胞类型的特异性表达,而在小鼠的皮层中也能保持神经元特异性。

图3:合成元件的体内验证:结合神经元(NeuN)、小胶质细胞(IBA1)和星形胶质细胞(GFAP)的免疫共染色观察CRE活性(LacZ)在新皮层第6层的表达情况

在体内实验的基础上,研究者进一步分析了在目标细胞和非目标细胞类型中驱动CRE特异性的转录因子基序组合。通过分析特定转录因子 (如GATA和HNF家族) 的使用模式和贡献分数,研究者确定了合成CREs在目标细胞中激活的具体机制,以及在非目标细胞中的抑制模式。研究者发现合成CRE的特异性与其在目标细胞中激活和抑制的TF组合相关。这些TF组合在天然序列中很少出现,表明Malinois模型已学会了一些基础的调控语法规则。

综上所述,通过深度学习驱动的CODA平台能够高效地生成合成CREs,展现出优于天然CRE的细胞类型特异性。该技术在基因治疗等需要精准组织递送的领域中具有重要应用前景。随着该领域技术的进步,未来有望进一步优化CRE设计,适应更复杂的基因调控需求。

制版人:十一

参考文献

1. Meuleman, W. et al. Index and biological spectrum of human DNase I hypersensitive sites.Nature584, 244–251 (2020).

2. Tewhey, R. et al. Direct identification of hundreds of expression-modulating variants using a multiplexed reporter assay.Cell165, 1519–1529 (2016).

BioART战略合作伙伴

(*排名不分先后)

BioART友情合作伙伴

来源:老陈看真实的科学世界

相关推荐