摘要:人工智能(Artificial Intelligence, AI),特别是生成式AI,正以前所未有的力量,赋予研究人员“创造”蛋白质的能力。这些由AI设计的全新蛋白质,不再是自然界亿万年演化的产物,而是由算法在硅基芯片中孕育而生的新分子。它们有望成为攻克癌症的
人工智能(Artificial Intelligence, AI),特别是生成式AI,正以前所未有的力量,赋予研究人员“创造”蛋白质的能力。这些由AI设计的全新蛋白质,不再是自然界亿万年演化的产物,而是由算法在硅基芯片中孕育而生的新分子。它们有望成为攻克癌症的“魔法子弹”,降解塑料的“环境卫士”,或是在农业、能源领域掀起革命的“催化剂”。
然而,正如每一枚硬币都有两面,这股强大的创造之力也投下了一道深邃的暗影。如果有人利用这种技术,不是为了造福人类,而是为了设计出更隐蔽、更危险的毒素或病毒蛋白,我们现有的生物安全体系能否抵御这种“智能”威胁?
这是一个令全球生物安全专家夜不能寐的问题。10月2日,《Science》的研究报道“Strengthening nucleic acid biosecurity screening against generative protein design tools”,首次以一种近乎实战演习的方式,对这个问题给出了一个深刻而复杂的回答。它不仅揭示了我们防御体系中的一个关键脆弱点,更展示了一场跨机构、负责任的“亡羊补牢”行动是多么重要和有效。
要理解这场“攻防演练”的精髓,我们首先来看看它的“战场”——现代生物学的核心基础设施之一:核酸合成(nucleic acid synthesis)。
今天,任何一个分子生物学实验室,如果想要研究某个特定的基因或蛋白质,不再需要费力地从生物体中分离提取。他们只需将基因的DNA序列(由A, T, C, G四种碱基组成的编码)发送给商业化的基因合成公司,几天后,一个装着精确合成的DNA分子的快递包裹就会送到门口。这个过程,就像是根据一份蓝图,用3D打印机打印出一个零件一样。
这极大地加速了生命科学研究的进程,但同时也打开了一个潜在的风险敞口。如果有人订购的是天花病毒的关键基因,或是能制造肉毒杆菌毒素的DNA序列,怎么办?
为了防止这种情况,基因合成产业建立了一道关键的“防火墙”——生物安全筛选软件(Biosecurity Screening Software, BSS)。全球所有负责任的基因合成公司,都会在接受订单时,使用BSS来审查客户提交的DNA序列。
这个软件的工作原理,在核心上是一种“最佳匹配(best match)”的策略。软件内部有一个庞大的“黑名单”数据库,包含了成千上万种已知的、受管制的、或有潜在危险的病原体和毒素的基因序列。当一份订单提交时,BSS会将客户的序列与这个数据库进行比对。如果客户序列的最佳匹配对象是数据库里的某个“危险分子”,系统就会自动“标记(flag)”,订单会被暂停,并转交专家进行人工审核。
多年来,这套系统一直在不断升级,以应对各种“绕过”企图。例如,早期有人发现,可以通过密码子优化(codon optimization)来规避审查。我们知道,DNA到蛋白质的翻译过程中,多个不同的DNA三联密码子可以编码同一种氨基酸。攻击者可以巧妙地替换DNA序列中的同义密码子,使得新的DNA序列与“黑名单”上的序列相似度很低,但翻译出来的蛋白质却一模一样。
道高一尺,魔高一丈。为了应对这种“密码子攻击”,BSS也进行了升级。现代的BSS系统不再仅仅比对DNA序列,而是会将客户提交的DNA序列进行六框翻译(six-frame translation)——即从DNA双链的六个不同起始位点出发,将其翻译成所有可能的氨基酸序列,然后再将这些氨基酸序列与“危险蛋白质”数据库进行比对。这样一来,无论DNA序列如何变化,只要它编码的蛋白质是危险的,就难逃法网。
这套历经考验的筛选体系,构成了全球生物安全网络的一个关键节点,一个阻止危险生物材料流入不法之徒之手的“咽喉要道”。在AI时代到来之前,它似乎是一道足够坚固的防线。
生成式AI的出现,让攻防的天平再次倾斜。
AI蛋白质设计(AI-assisted protein design, AIPD)工具的能力,已经超越了简单的密码子替换。它们可以在保持蛋白质核心三维结构和功能(例如,毒性)的前提下,大幅度地改变其氨基酸序列。这就好比一个高明的伪装大师,他可以改变一个人的外貌、衣着、口音,但其内在的身份和意图却丝毫未变。
这种由AI创造出的、与原始危险蛋白序列差异巨大但功能可能相似的蛋白质,被称为“合成同源物(synthetic homologs)”。理论上,它们可能因为与数据库中的任何已知危险蛋白都不够“相似”,从而骗过基于“最佳匹配”原则的BSS系统。
这不再是理论上的担忧。研究人员决定发起一场前所未有的“AI红队演习(AI red teaming)”。这个概念源自网络安全领域,指的是由“白帽黑客”扮演攻击者,对自身系统进行模拟攻击,以发现并修复潜在的漏洞。
演习的“武器库”:研究人员选择了三款强大的、并且是开源的AI蛋白质设计模型:ProteinMPNN、EvoDiff-MSA和EvoDiff-Seq。开源意味着任何人都可以获取和使用它们,这恰恰模拟了潜在滥用者最可能采用的工具。
演习的“打击目标”:他们精心挑选了72种不同的“关切蛋白(Proteins of Concern, POCs)”作为模板。这些蛋白质绝大多数是剧毒的毒素,因为合成单个毒素基因就可能构成直接威胁。此外,为了确保研究的普适性,他们还纳入了少量来自受管制病毒的蛋白质。为避免造成信息危害,研究人员在论文中隐去了这些蛋白质的具体名称,仅用随机索引代指。
生成“幽灵弹药”:利用这三款AI模型,研究团队以72种关切蛋白为蓝本,生成了总计76,080个全新的合成同源物。这是一个庞大的、充满了多样性的数据集。
关键问题:这些AI设计的蛋白质还“好用”吗?在现实世界中,一个怀有恶意的行为者,在耗费资源去合成这些基因之前,一定会先评估它们成功的可能性。由于伦理和安全限制(研究人员明确指出,他们不想被误解为在开发生物武器),本次研究没有在湿实验室(wet laboratory)中真实地合成和测试这些蛋白质的活性。
取而代之的,他们采用了一种计算生物学中广泛应用的“计算模拟(in silico)”评估方法。他们使用了名为OpenFold的工具(与AlphaFold类似)来预测这些新蛋白质的三维结构,并通过两个关键指标来判断它们维持原有功能的可能性:
1. TM-Score:这是一个衡量两个蛋白质结构相似度的指标,分数范围从0到1。通常认为,如果一个AI设计出的蛋白质与原始模板蛋白的TM-Score高于0.5,它们就极有可能拥有相同的空间折叠方式,这是维持其生物学功能(比如毒性)的基础。研究数据显示,AI模型生成的蛋白质中,有相当大一部分的TM-Score都集中在0.6到0.9之间的高分区域,这表明它们在结构上高度保真。
2. ΔpLDDT:pLDDT是结构预测模型对其预测结果的“自信度”评分。ΔpLDDT则是比较AI设计的新蛋白的pLDDT与原始蛋白的pLDDT之间的差异。这个值如果不是一个很大的负数(例如,大于-10),就意味着AI对新结构的预测信心并未显著下降,侧面印证了新序列的可行性。
通过这两个计算指标的筛选,研究人员锁定了一大批“高可能性”的危险分子。这些分子,就是即将考验全球基因合成“防火墙”的“幽灵蛋白质”。它们在氨基酸序列上与已知的危险蛋白差异显著,序列一致性(Sequence Identity)的分布图显示,大量合成同源物的序列一致性低于40%,甚至有相当一部分低于30%,但在结构和功能上,却被预测为高度相似。
演习的舞台已经搭好,最关键的一幕即将上演。
研究人员将这76,080个合成同源物的序列,发送给了四家匿名的、现实世界中的生物安全筛选服务提供商(在论文中被称为Tool 1, 2, 3, 4),让他们使用当时正在服役的、未经任何升级(Unpatched)的BSS系统进行检测。
结果令人警醒。
在论文的结果图中,每一个点代表一个AI生成的蛋白质。横坐标是ΔpLDDT(越往右越好),纵坐标是TM-Score(越往上越好)。因此,图的右上角区域,代表的就是那些最有可能保持原有危险功能的“高风险分子”。在理想的BSS系统中,这个区域应该是一片红色的海洋,因为红色代表“被标记(flagged)”。
然而,在“未升级”工具的测试结果中,右上角区域出现了大片的蓝色斑点。每一个蓝点,都代表一个成功骗过BSS系统的“幽灵蛋白质”,一个未被识别的潜在威胁。
各家工具的表现参差不齐,但都暴露了明显的短板:
Tool 1:在所有提交的序列中,有17,597个被它标记,但有57,370个被放过。在其未能标记的序列中,有大量位于高风险区域。
Tool 2:情况更糟,标记了41,653个,但放过了33,314个。其高风险区域的“蓝色污染”比Tool 1更为严重。
Tool 3 和 Tool 4也都显示出类似的、令人不安的结果。
这是一个典型的“零日漏洞(zero-day vulnerability)”,在网络安全术语中,这指已经被发现,但在官方补丁发布之前,可以被黑客利用的安全漏洞。在生物安全领域,这是第一次如此大规模、系统性地证实了这样一个“零日漏洞”的存在:基于“最佳匹配”的传统BSS系统,对于AI生成的、低序列相似度但高功能相似度的威胁,存在系统性的识别盲区。
为了进一步验证这个结论,研究人员还用这套BSS系统去扫描了72个原始的、未经AI修改的关切蛋白(wild-type proteins)。结果是,所有工具都表现出近乎完美的灵敏度和特异性,全部正确识别。这有力地说明,问题不在于BSS系统本身有缺陷,而在于威胁的性质已经发生了根本性的改变。旧地图,已经无法导航AI时代的新大陆了。
发现漏洞只是第一步,更重要的是如何修复它。
该研究最值得称道的地方之一,是它所展现的“负责任的披露(responsible disclosure)”过程。研究团队没有立刻将这一惊人发现公之于众,这可能会给真正的恶意行为者提供可乘之机。
相反,他们首先在2023年10月的一个小型预研究中确认了该漏洞的存在。随后,他们立即联系了相关的监管和协调机构,包括国际基因合成联盟(International Gene Synthesis Consortium, IGSC)、美国白宫科技政策办公室(OSTP)等政府部门,以及蛋白质设计领域的同行。在保密的前提下,他们分享了初步发现,并启动了一项更大规模、更深入的合作研究,也就是我们现在看到的这篇论文的主体。
三家BSS提供商(Provider 1, 2, 3)在收到这些信息后,迅速行动起来,着手开发和部署“补丁(Patched)”。他们采取了不同的策略,有的彻底更换了筛选算法,有的则调整了现有算法的参数以提高灵敏度。
经过数月的努力,升级后的BSS系统再次接受了同样的76,080个合成同源物的考验。结果发生了戏剧性的转变。
在新的结果中,原先遍布蓝色斑点的右上角高风险区域,如今几乎被红色完全覆盖。
Tool 1(升级后):标记数量从17,597飙升至51,207,高风险区域的“漏网之鱼”大幅减少。
Tool 2(升级后):标记数量从41,653增至57,099。
Tool 3(升级后):标记数量从46,461增至53,854。
从“未标记”变为“已标记”的绿色数据点,密集地出现在高风险区域,而从“已标记”变为“未标记”的紫色数据点则寥寥无几。这表明,这次升级是精准而有效的,它在不显著增加误报率(即错误地标记安全序列)的前提下,极大地提升了对AI设计威胁的捕获能力。
但是,故事并没有在这里结束。仔细观察升级后的结果,我们依然可以在右上角的红色海洋中,找到零星的蓝色小岛。这意味着,即使在打了补丁之后,系统也并非无懈可击。
如果我们将“更有可能具备功能的蛋白质”定义为TM-Score > 0.5且ΔpLDDT > -10,那么:
升级后的Tool 1,仍然错过了340个(约1%)这样的蛋白质。
升级后的Tool 2,错过了913个(约3%)。
升级后的Tool 3,错过了917个(约3%)。
所有工具平均下来,对这些高风险分子的标记率约为97%。这已经是一个巨大的进步,但那剩下的3%,却像一根芒刺,揭示了更深层次的挑战。
为什么打了补丁,还会有漏网之鱼?
研究人员对这些被“错过”的序列进行了深入剖析,发现原因并非简单的技术疏漏,而是触及了生物安全筛选中一些更为根本性的“灰色地带”。
第一个灰色地带:与无害蛋白的“近亲”分析发现,大多数被错过的序列,都来源于少数几个特定的模板蛋白,例如论文中代号为Protein 31, 37, 和 46的蛋白。这些关切蛋白(POCs)本身在自然界中就存在一些序列相似度很高的“亲戚”,而这些“亲戚”是完全无害的。
AI在设计合成同源物时,可能会创造出一个序列,它与原始危险蛋白的相似度不高,但与那个无害的“亲戚”蛋白的相似度却更高。在这种情况下,遵循“最佳匹配”原则的BSS系统,会判定这个序列更像一个无害蛋白,因此不予标记。从算法和现有指导原则来看,BSS的判断是“正确”的。
这暴露了一个难题:当AI能够在危险与非危险的序列空间之间自由穿梭,并创造出位于两者之间的模糊地带的蛋白质时,我们该如何清晰地划定“危险”的边界?这已经超出了纯粹的技术范畴,变成了一个需要生物学家、安全专家和政策制定者共同探讨的定义问题。
第二个灰色地带:辅助蛋白的“身份”另一个频繁被错过的例子是Protein 66。这个蛋白本身不是毒素的核心功能单元,而是一个辅助成分(accessory component),它可能在毒素进入细胞的过程中起到一定的结构支持作用,但并非必不可少。
对于这类蛋白,安全专家内部也存在争议:它应该被视为需要严格管制的“关切蛋白”吗?不同的机构可能有不同的标准。这也解释了为什么Provider 4选择不更新其工具,他们认为,根据现行指南,其工具的“错过”在很大程度上是合理的,因为尚不清楚这些序列是否真的应该被标记。
第三个灰色地带:“一刀切”策略的局限Tool 1在升级后,依然频繁地错过由Protein 23衍生出的变体。研究人员发现,这是因为他们为了快速部署,采用了一套统一的参数来训练新模型。这套参数对大多数蛋白都有效,但对Protein 23这类蛋白的检测效果却不佳。后续的调整(虽然结果未在论文中展示)解决了这个问题。这说明,面对纷繁复杂的蛋白质世界,一个“放之四海而皆准”的筛选策略可能是不够的,未来可能需要针对不同类别的威胁,进行更加精细化的定制。
这3%的“错过”,不再仅仅是技术上的查漏补缺,它迫使我们去思考:在AI时代,我们对“生物威胁”的定义是否需要更新?我们的监管框架是否足够灵活,以应对这些由技术创造出的新模糊地带?
一个坚定的攻击者,并不会满足于仅仅在氨基酸序列上做文章。他们可能会采取更进一步的手段,在DNA层面进行伪装,这就是DNA混淆(DNA obfuscation)。
这是一种众所周知的规避技术。攻击者可以将编码危险蛋白的完整DNA长链,切割成多个短的片段(fragments)。然后,他们可以打乱这些片段的顺序,甚至将某些片段的方向颠倒(从“正义链”变为“反义链”)。这样一份被打乱的、碎片化的DNA订单,如果直接进行六框翻译,将得到一堆毫无意义的乱码,自然无法匹配到任何危险蛋白。
然而,对于一个稍有经验的分子生物学家来说,在实验室里将这些DNA片段像拼图一样重新组装起来,恢复成原始的、能编码危险蛋白的基因,是轻而易举的事情。
研究团队想知道,升级后的BSS系统,能否抵御这种“AI设计 + DNA混淆”的双重攻击?他们进行了第二轮测试。
结果显示,所有升级后的BSS工具,在抵御DNA混淆方面的能力都得到了提升。该研究展示了每种工具的“混淆率”,即有多少比例的模板蛋白,其AI设计的变体能通过混淆手段成功躲避筛选。曲线越是陡峭、越是偏向左侧,说明该工具的抗混淆能力越强。
可以看到,升级后的Tool 1, 2, 3,其曲线都明显优于升级前的版本。这意味着,即使面对碎片化的DNA订单,新的BSS系统也更有可能从中嗅出危险的信号。这可能是因为升级后的算法对更短的序列特征更为敏感。
然而,这种抵抗力同样不是绝对的。对于某些模板蛋白,DNA混淆依然是一种有效的规避手段。这场攻防战的复杂性和长期性,再一次凸显出来。每当防御方筑起一道高墙,攻击方就会开始研究新的挖掘工具和攀爬技巧。
该研究如同一部情节紧凑的科学惊悚片,为我们上演了一场精彩的生物安全攻防战。但它最终传递的,并非恐慌,而是希望和路径。
它是一个关于负责任创新的成功范例。研究人员、私营企业、政府机构和国际组织之间的紧密合作,使得一个新发现的严重漏洞,在短时间内得到了有效的缓解。这种主动识别风险、协同应对挑战的模式,为未来如何驾驭强大的新兴技术,树立了一个标杆。
同时,它也清晰地指出了我们当前防御体系的根本局限。无论是“最佳匹配”还是更复杂的序列比对算法,它们都还停留在“看山是山”的阶段,依赖于与已知威胁的序列相似性。然而,正如这项研究揭示的,AI蛋白质设计的能力在于“看山不是山”——创造出序列上全新、但功能上依旧的分子。
长远来看,随着AI技术的飞速发展,我们终将迎来一个AI能够设计出与自然界中任何已知蛋白质都毫无序列相似性的全新功能分子的时代。到那时,单纯依赖序列筛选的“防火墙”将彻底失效。
因此,我们必须开始探索下一代生物安全技术。研究人员在文末指出,未来的方向可能在于利用高维度的学习嵌入空间(high-dimensional learned embedding spaces)。这听起来很抽象,但可以理解为,让AI去学习蛋白质序列的“语法”和“语义”,而不仅仅是“字母”本身。通过这种方式,AI或许能够不依赖于序列比对,直接从一个蛋白质的序列中“读出”它的潜在功能,判断它是否可能是一个“威胁”。
AI既是挑战的来源,也可能是解决方案的关键。这场围绕着基因密码的攻防战远未结束。它要求我们保持警惕,持续投入,并以前所未有的开放性和协作精神,去共同构建一个既能拥抱生物技术带来的无限机遇,又能有效防范其潜在风险的安全未来。这不仅是研究人员的责任,也是我们每一个身处这个伟大变革时代的人,需要共同思考的命题。
参考文献
Wittmann BJ, Alexanian T, Bartling C, Beal J, Clore A, Diggans J, Flyangolts K, Gemler BT, Mitchell T, Murphy ST, Wheeler NE, Horvitz E. Strengthening nucleic acid biosecurity screening against generative protein design tools. Science. 2025 Oct 2;390(6768):82-87. doi: 10.1126/science.adu8578. Epub 2025 Oct 2. PMID: 41037625.
声明:本文仅用于分享,不代表平台立场,如涉及版权等问题,请尽快联系我们,我们第一时间更正,谢谢!
来源:生物探索一点号1
