摘要:疫情防控的终极目标是能够仅通过观察病毒的基因序列来预测其进化方式。虽然距离这个目标还很遥远,但越来越多的研究小组正在使用人工智能 (AI) 来预测 SARS-CoV-2、流感病毒和其他病毒的进化。
包括 SARS-CoV-2 在内的 RNA 病毒不断产生新的突变。图片来源:Steve Gschmeissner/Science Photo Library
疫情防控的终极目标是能够仅通过观察病毒的基因序列来预测其进化方式。虽然距离这个目标还很遥远,但越来越多的研究小组正在使用人工智能 (AI) 来预测 SARS-CoV-2、流感病毒和其他病毒的进化。
病毒(尤其是 SARS-CoV-2 等 RNA 病毒)通过产生新的突变不断进化。其中一些变化对病毒有利,使变异体能够逃避宿主的免疫并迅速传播。通过预测病毒的进化方式,理论上研究人员可以提前设计疫苗和抗病毒疗法。
到目前为止,人工智能工具可以预测病毒中哪些单一突变最成功,哪些变体将在短期内“胜出”。但它们还远远不能预测未来很长一段时间内将发生的突变或变体组合。
斯坦福大学计算生物学家 Brian Hie 是首批将大型语言模型应用于病毒突变研究的研究人员之一,他表示,这是“一个非常令人兴奋且非常有用的研究领域”。但他表示,预测病毒进化仍然极具挑战性。
过去,研究人员曾进行实验室实验来识别具有增强特性的变体,但这些实验既费力又费时。北京大学免疫学家曹云龙领导的实验室等一些研究小组已经开展实验,研究个体突变如何影响病毒逃避一组抗体检测的能力2。这些实验可以解释大量病毒进化,但并非全部。
英国格拉斯哥大学病毒学家戴维·罗伯逊 (David Robertson) 表示,基于人工智能的蛋白质结构预测工具的出现为该领域注入了新的活力,例如伦敦人工智能公司 DeepMind 创建的AlphaFold,以及 Meta(前身为 Facebook,总部位于加利福尼亚州门洛帕克)创建的 ESM-2 和 ESMFold。
人工智能模型需要大量数据才能预测病毒进化。东京大学生物信息学家伊藤淳平表示,对导致 COVID-19 的病毒 SARS-CoV-2 进行大规模测序使这一目标成为可能。研究人员现在有近 1700 万个序列可用于训练他们的模型。
马萨诸塞州波士顿哈佛医学院的 Debora Marks 及其团队开发了一种名为 EVEscape 的模型,该模型已用于设计SARS-CoV-2 刺突蛋白的 83 种可能版本,该病毒利用该蛋白感染细胞。这些刺突蛋白可以逃避接种过或感染过当前流行的变体4 的人产生的抗体,并可用于测试未来 COVID-19 疫苗的有效性。
Ito 团队正在研究病毒适应度的更广泛特征——变体在人群中迅速传播并最终占据主导地位的能力。研究人员利用 ESM-2 创建了一个名为 CoVFit 的模型,该模型可以预测 SARS-CoV-2 变体的相对适应度。CoVFit 经过 13,643 种 SARS-CoV-2 刺突蛋白变体的训练,还使用了 Cao 团队关于个体突变如何影响病毒逃避抗体能力的实验数据。Ito 团队创建了一个受限模型,该模型使用截至 2022 年 8 月的变体数据进行训练,并发现它成功预测了该截止点之后某些变体的适应度提高——包括当年晚些时候流行的新变体XBB 5 。
到 2024 年 3 月,全球范围内占主导地位的 SARS-CoV-2 变种是一种名为 JN.1 的变种。利用 CoVFit,Ito 团队确定了三种单氨基酸变化,这些变化将有助于 JN.1 获得适应性。此后,这些突变已在全球迅速蔓延的变种中被发现。
曹说,为了提高人工智能模型的准确性,研究人员将需要超过五年的病毒进化数据。他说,将监测测序数据与实验数据相结合有助于克服一些数据挑战。
其他几个研究小组也在开发使用综合数据的模型6。其中一个研究小组由伊藤在东京大学的同事、进化病毒学家川久保修介 (Shusuke Kawakubo) 领导。在尚未发表的研究中,川久保正在研究流感病毒在宿主体内诱发免疫反应的能力。如果流感的血凝素蛋白(其刺突蛋白等同物)发生足够大的变化,它可能无法被人体的免疫反应识别,此时,全球疫苗制造商需要相应地调整下一季的流感疫苗。
伊藤说,大多数这些模型仅限于理解微小变化的影响,但理论上病毒几乎有无限的进化空间。例如,Omicron 变种出现时就带有 50 多个突变,看起来与研究人员以前从未见过的完全不同。
这些突然的进化飞跃很难预测。Robertson 和他的同事正在尝试找到使用 AI 模型来更好地理解这些巨大的进化轨迹并确定其极限的方法。他们发现,如果给 ESM-2 一个单一的尖峰序列,它就可以识别出可能发生变化的区域,以及这些变化如何影响蛋白质7的其他区域。“这有点像黑魔法,”Robertson 说。他说,目标是能够在病毒在人体中检测到后很早就确定它有多少进化空间。
机构编号: https://doi.org/10.1038/d41586-024-04195-3
来源:人工智能学家