摘要:人工智能(AI)设计并生成蛋白质,大家已不陌生,而现在,AI 朝着生成生命的方向迈出了重大一步——世界首个由AI设计的病毒(噬菌体)诞生,且其能够感染并杀死耐药细菌。
撰文丨王聪
编辑丨王多鱼
排版丨水成文
人工智能(AI)设计并生成蛋白质,大家已不陌生,而现在,AI 朝着生成生命的方向迈出了重大一步——世界首个由AI设计的病毒(噬菌体)诞生,且其能够感染并杀死耐药细菌。
该研究于 2025 年 9 月 17 日发布在了预印本平台bioRxiv上(尚未经过同行评审),论文题为:Generative design of novel bacteriophages with genome language models。该研究利用基因组语言模型设计生成了一种新型噬菌体,展示了 AI 在设计用于治疗细菌感染的生物技术工具和疗法方面的潜力,该策略能够补充现有的噬菌体疗法策略,有望增强针对耐药菌感染的治疗手段。
论文通讯作者、Arc 研究所/斯坦福大学的Brian Hie表示,这是 AI 系统首次能够编写连贯的基因组规模序列,下一步将是 AI 生成生命。
AI 模型已经成功用于生成 DNA 序列、单个蛋白质以及多组分复合物。但由于基因之间的复杂相互作用以及基因复制和调控过程,使用 AI 模型来设计整个基因组,显然要困难得多。而只有设计出完整的基因组,才能触及许多重要的生物学功能。
为了设计出完整的病毒基因组,Brian Hie团队使用他们之前开发的Evo 1和Evo 2这两款 AI 模型——
Evo 1是在原核生物(细菌、古菌)和噬菌体的基因组上进行训练的,能够在 DNA、RNA 和蛋白质模式下实现零样本功能预测,还能够生成长度超过百万碱基对的具有合理基因组结构的 DNA 序列,这是首个在全基因组规模上以单核苷酸分辨率预测和生成 DNA 序列的 AI 模型。
Evo-2则进一步将训练数据扩展到了生命的所有域——从细菌、古细菌、噬菌体,以及植物、动物、人类和其它单细胞和多细胞的真核生物,总计12.8 万个全基因组和宏基因组数据的 9.3 万亿个核苷酸,训练参数高达 400 亿。其能够从头生成线粒体基因组序列、原核生物(细菌)基因组序列以及真核生物(酵母)整个染色体序列。
首先,研究团队需要一个设计模板,即一个起始序列,引导 AI 模型生成具有所需特性的基因组,他们选择了噬菌体ΦX174,这是一种简单的单链 DNA 病毒,其基因组有 5386 个核苷酸组成,编码 11 个基因,其处于当前 DNA 合成成本所能承受的上限,同时复杂程度足以展示基因组规模的设计能力。其重叠基因结构构成了一个严格的测试案例,重叠区域的突变必须同时满足多个蛋白质的约束条件。此外,ΦX174 编码了 7 个调控元件和 2 个识别序列,它们协同工作以确保其在宿主细胞中正确组装和复制。
ΦX174 大有来头,1977 年,弗雷德里克·桑格(Frederick Sanger)使用其发明的桑格测序法对 ΦX174 进行了测序,这是首个被完整测序的基因组,桑格也因此在 1980 年第二次获得诺贝尔化学奖。2003 年,克莱格·文特尔(Craig Venter)化学合成了 ΦX174 的完整基因组,这是首个被人工合成完整基因组。而现在,Brian Hie团队以 ΦX174 为模板,生成了首批由 AI 设计的完整基因组。这一系列成就标志着我们实现了从读取 DNA到书写 DNA再到设计 DNA。
Evo 1 和 Evo2 模型此前已基于超过200 万个噬菌体基因组进行了训练,但研究团队进一步利用一种名为监督学习的方法对这两个模型进行了训练,以生成具有感染大肠杆菌菌株(尤其是具有抗生素耐药性的菌株)特定功能的 ΦX174 样病毒基因组。
研究团队评估了数千个由 AI 模型生成的序列,并将筛选范围缩小至 302 种可行的候选噬菌体。大多数候选噬菌体与 ΦX174 的核苷酸同源性超过 40%,但有些则具有完全不同的编码序列。研究团队将这些 AI 设计基因组进行了 DNA 合成,并将其插入宿主细菌中以培养噬菌体。然后对这些噬菌体进行实验测试,以确定它们是否能够感染并杀死大肠杆菌。
在这 302 种 AI 设计的噬菌体中,有 16 种能够自我复制,还能够特异性感染大肠杆菌,而且,这些 AI 设计的噬菌体组合能够感染并杀死三种不同的大肠杆菌菌株,而野生型的 ΦX174 噬菌体却无法做到这一点。研究团队表示——这是一个相当令人惊讶的结果,也很令人兴奋,表明了这种 AI 设计噬菌体的方法可能对治疗耐药菌感染非常有用。
此外,在这些有功能的基因组中,每个基因组与它们最近的天然基因组相比,含有 67-392 个新的突变。其中,Evo-Φ2147 具有 392 个突变,与噬菌体 NC51 的平均核苷酸同源性为 93.0%,按照某些分类学阈值,它可被视为一个新物种。有 13 个基因组包含的突变在任何已知的天然序列中都找不到,这表明 Evo 能够使用自然进化所未采样的序列。
鉴于 AI 模型的强大生成能力,有人担心这些 AI 模型会被用于设计能危害人类的病毒。论文作者表示,Evo 模型的训练数据已经排除了影响真核生物(包括人类)的病毒,而该研究中作为模板的 ΦX174 以及大肠杆菌宿主系统是无害的,它们在分子生物学研究中有着长期安全使用的记录。
Evo 系统的能力——从生成蛋白,到生成RNA-蛋白复合体,再到生成噬菌体基因组
最后,研究团队表示,希望这种方法能够用于安全地生成 AI 设计的病毒(噬菌体),以治疗各种疾病和公共卫生问题,包括日益严重的细菌耐药性问题。利用 AI,我们不再寄希望于自然界已经进化出的针对特定抗性机制的噬菌体,而是能够直接生成多样化的噬菌体,从而大大降低细菌全面产生抗性的可能性,有望将噬菌体疗法从一个反复试验的过程转变为一种系统性方法以领先于细菌的进化。
论文链接:
来源:吃不饱的科学家