摘要:在基因治疗领域和合成生物学领域,科学家们一直面临一个关键挑战:如何让基因只在特定细胞中表达,从而避免对无关组织或细胞的伤害或影响。
撰文丨王聪
编辑丨王多鱼
排版丨水成文
在基因治疗领域和合成生物学领域,科学家们一直面临一个关键挑战:如何让基因只在特定细胞中表达,从而避免对无关组织或细胞的伤害或影响。
近日,华盛顿大学和 Altius 生物医学科学研究所的研究人员通过迭代深度学习技术,成功设计出比天然增强子更高效、更简洁的合成增强子(短至 50bp),在人类细胞中实现了前所未有的细胞类型特异性。
该研究以:Iterative deep learning design of human enhancers exploits condensed sequence grammar to achieve cell-type specificity 为题,于 2025 年 6 月 4 日发表在了 Cell 子刊Cell Systems上。
基因疗法如同一辆辆开往疾病组织的救护车,但如何让这些“救护车”准确抵达目标而不走错路?关键在于增强子(enhancer)——基因组中调控基因表达开关的调控元件。
传统的增强子发现面临三大困境:
1、海量筛选难题:人类基因组包含数百万候选增强子,天然增强子平均长度达 500-1000 bp;
2、精度不足:现有的增强子往往同时激活多种细胞类型;
3、设计盲区:调控规则复杂,涉及多种转录因子组合及空间排布。
在这项研究中,研究团队构建了一套迭代深度学习设计系统,通过两轮“设计-实验-优化”循环,让模型在实战中进化:
第一代设计:从零起步,基于 29891 个天然增强子的MPRA活性数据进行训练,进而逐步序列优化,生成多样化的新型序列,成功设计出 1037 个合成增强子;
模型进化:小数据大突破,利用合成增强子的实测数据微调模型,训练数据量比前代减少 30 倍,比同类研究少 800 倍,引入 L2 正则化防止模型过度依赖单一转录因子;
第二代飞跃:设计出 688 个新型增强子,针对 HepG2 细胞设计的增强子将基因在 HepG2 细胞中的中位表达量提升至 46.2 倍,针对 K562 细胞设计的增强子将基因在 K562 细胞中的中位表达量提升至 6.7 倍。
该研究的设计方法嵌入了相关转录因子结合位点(TFBS)基序,其频率高于同类内源性增强子,同时使用更具选择性的基序词汇。结果表明,增强子活性与单细胞水平的转录因子表达相关。最后,研究团队通过干扰实验表征了最优增强子的因果特征,并证明短至 50 bp 的增强子也能保持特异性。
该研究的亮点:
深度学习设计的增强子的特异性超过了天然对照组;
合成增强子使用的序列语法比天然增强子更为紧凑;
对合成增强子进行迭代再训练可产生具有更优特异性的设计;
单细胞转录因子表达与合成增强子活性相关。
这项研究开辟了三大应用方向:
1、靶向基因治疗:设计肝癌特异性增强子,精准表达抗癌基因;
2、罕见病治疗:为罕见遗传病定制组织特异性增强子;
3、合成生物学:构建细胞类型特异性生物传感器。
这项研究也标志着基因调控元件设计范式的根本转变,传统方法——天然增强子筛选 → 功能验证 → 有限修饰 → 成功率低;而 AI 驱动范式——深度学习设计 → 高通量验证 → 数据驱动优化 → 成功率大幅提高。
论文链接:
https://www.cell.com/cell-systems/fulltext/S2405-4712(25)00135-8
来源:笔迹科学社区