当前,AI正重塑蛋白质科学范式,引领生命科学从实验探索迈向精准设计的新纪元。2024年,AlphaFold2因其在蛋白质结构预测方面的突破性贡献获得诺贝尔化学奖,mRNA疫苗也因其在新冠大流行中的关键作用荣获2023年诺贝尔生理学或医学奖。这两项荣誉凸显了AI在蛋白质科学和医药研发中的深远影响。本文将探讨AI如何赋能蛋白质基础研究、推动疫苗和药物研发,并加速蛋白质科学产业生态的发展,全面解析AI在这一领域的战略意义与变革性作用。摘要:当前,AI正重塑蛋白质科学范式,引领生命科学从实验探索迈向精准设计的新纪元。2024年,AlphaFold2因其在蛋白质结构预测方面的突破性贡献获得诺贝尔化学奖,mRNA疫苗也因其在新冠大流行中的关键作用荣获2023年诺贝尔生理学或医学奖。这两项荣誉凸显了AI
一、AI赋能蛋白质基础研究:从预测到设计
AlphaFold的成功标志着AI在生命科学领域迈出了历史性的一步,其背后的核心原理在于从大量蛋白质结构和序列数据学习规律,从而精准预测出蛋白质的三维结构,揭示其功能,提升对生命机制的理解。尤其是AlphaFold2开创性地采用了一种能同时整合多序列比对和特征信息的新架构,并结合注意力机制,不仅解决了蛋白质折叠问题,也显著提高了预测精度,成功预测出超过2亿个蛋白质结构。在此基础上,DeepMind推出了AlphaMissense模型,预测基因突变对蛋白质的影响,实现了从结构预测到功能评估的完整路径。图1显示,AlphaMissense的预测能力显著优于人类注释,尤其是在覆盖范围和准确性方面。
图1 DeepMind发布《A new golden age of discovery Seizing the AI for Science opportunity》,2024.11
根据不同的任务和功能,AI蛋白质模型可分为三类:结构预测模型、结构设计模型及交互预测模型。结构预测模型通过氨基酸序列预测蛋白质结构,理解其功能,主要服务于药物和疾病的基础研究。诺奖得主珍妮弗·道德纳 借助AlphaFold2预测了近7万个病毒蛋白质的3D结构,推动了病毒免疫逃逸机制和疗法的探索。结构设计模型多采用生成对抗网络(GAN)、Transformer等生成式模型,根据需求设计或优化蛋白质,主要面向蛋白质工程、药物开发、工业酶和抗体设计等场景。交互预测模型通过分析蛋白质相互作用、分子结构数据等,预测生物分子间的相互作用,支撑细胞活动、药物作用机制和基因表达等研究,因此多用于药物测试和生理功能模拟。具体区别如下表1所示。
表1 AI蛋白质模型分类
结构预测模型结构设计模型交互预测模型核心问题根据线性序列预测折叠后的三维结构。新蛋白质的设计与优化。预测蛋白质与蛋白质、小分子的互相作用。目标优化提高预测精度提高预测速度,尤其是长序列实现特定功能。提升可控性、稳定性。提高预测精度。蛋白质网络的整合预测。识别潜在交互。核心
技术
深度学习,如Transformer、卷积神经网络(CNN)。
多序列比对(MSA)信息
物理化学约束
生成式AI,如生成对抗网络(GAN)、变分自编码器(VAE)。
序列-结构映射
分子动力学模拟
扩散模型、深度学习,如卷积神经网络(CNN)、Transformer、循环神经网络RNN、图神经网络等。
数据依赖结构数据,如PDB。结构数据。功能数据。模拟数据,如分子动力学模拟。蛋白质相互作用数据分子结构数据实验验证数据。应用场景基础研究,如蛋白质解析、靶点发现等。工程应用,如设计抗体、酶催化剂。药物发现、疾病机制解析、基因调控、细胞信号传导。典型应用AlphaFold、RoseTTAFoldProGen、ProteinMPNNDiffDock、GameFormer近两年,AI蛋白模型开始出现如下发展趋势和特点。一是深度学习的进步提升了蛋白质预测的精准度和效率。传统深度学习方法如卷积神经网络(CNNs)和循环神经网络(RNNs)等曾被广泛应用于蛋白质序列分析,而当前Transformer架构已成为主流技术,如AlphaFold2。同时,多模态学习整合了序列、结构和功能数据,进一步提升了蛋白质结构与功能多样性的识别能力。二是从静态向动态结构预测转变。许多生物过程如药物作用、酶催化反应都依赖于蛋白质的结构变化和动态交互,因此动态结构预测正成为解决蛋白质折叠、交互作用等瓶颈问题的关键。AlphaFold3通过优化模型架构和算法,能够预测蛋白质与配体等分子的相互作用;上交大 提出的几何深度生成模型DynamicBind,能从未结合的蛋白质结构中准确生成配体结合构象,实现蛋白质动态对接预测。三是生成模型与蛋白质逆设计成为研究热点。生成对抗网络等生成模型推动了蛋白质设计应用,尤其在疫苗开发、酶催化设计等方面。在此基础上,结合预测和设计的闭环模式,进一步提高了蛋白质工程的效率和效果。
二、AI变革蛋白质领域应用:疫苗研发与药物设计
AI在蛋白质基础研究中的发展经历了从早期探索到突破性应用的过程,极大地推动了生物医药领域的进展,特别是在药物发现和疫苗研发方面。
(一)AI助力药物研发
药物靶点的确定。药物靶点的确定是药物研发的关键步骤,AI技术显著提高了靶点发现的效率和精度。尽管近两年来存在对AlphaFold2到底能否直接促进发现配体的质疑,但近期美国一项研究证明了AlphaFold2在靶点确定、配体发现中的实际应用潜力。今年5月,洛克菲勒大学、北卡罗莱纳大学、哈佛大学、斯坦福大学 等利用AlphaFold2预测了两种新蛋白sigma-2和5-HT2A的结合位点,这两类蛋白是治疗阿尔茨海默病、精神分裂症等神经疾病的重要靶点。通过冷冻电镜和X射线晶体衍射的验证,AlphaFold2预测的配体结合位点与实验结果高度吻合,命中率高达54%(sigma-2)和26%(5-HT2A),与传统实验结构差距极小。
功能蛋白设计。AI基于大量蛋白质数据、物理化学原理和蛋白质折叠力学,模拟靶点与其他分子的相互作用,能够快速设计出抗体等具有特定功能的蛋白质。2024年4月,美国英矽智能 公开了全球首个进入Ⅱ期临床试验的AI药物INS018_055的研发全过程。这项工作从靶点发现到临床前候选药物提名仅用时18个月,远低于传统药物研发,展示了生成式AI驱动的药物发现管道的能力。这款药物用于治疗一种罕见病“特发性肺纤维化(Idiopathic Pulmonary Fibrosis,IPF)”。该病症具有高死亡率和病程不可逆的特点,治疗难度大,中位生存期仅2-3年,生存率低于许多癌症。英矽智能团队通过PandaOmics平台分析多组学数据,结合生物网络分析和文献数据筛选出TRAF2-和NCK-相互作用激酶(TNIK)作为抗纤维化靶点,并利用生成化学引擎Chemistry42从头生成具有目标功能的分子结构,再通过筛选迭代获得了候选分子INS018_055。该药物已完成Ⅰ期临床试验,并显示出良好的安全性和耐受性,以及理想的药代动力学特征。
药物再利用。AI通过分析临床数据和基因组学数据,可以识别已有药物对其他疾病的潜在疗效。药物再利用的过程,不仅能加速新适应症的发现,还能显著减少研发成本和时间。2024年3月,美国卫生高级研究计划局(ARPA-H) 与致力于药物再利用的非营利组织Every Cure签订为期三年、价值4830万美元的合同。该合同将加速Every Cure通过开发人工智能平台(MATRIX),开发开源药物再利用数据库等,释放现有药物的全部潜力,以治疗更多疾病。
(二)AI推动mRNA疫苗开发
疫苗抗原的识别与优化。AI通过分析病毒基因组,可以预测哪些抗原能触发免疫反应并进行优化,确保持久有效地激活免疫系统。新冠疫情初期,AI技术帮助快速识别新冠病毒的刺突蛋白,并将其优化为疫苗开发的关键靶标,推动了疫苗的开发。2024年9月,英国格拉斯哥大学和澳大利亚悉尼大学利用AlphaFold和ESMFold成功预测了登革热、寨卡病等数百种黄病毒科病毒的蛋白质结构,并揭示了其进入机制,为疫苗开发和应对未来疫情提供了基础。
mRNA序列设计与优化。mRNA疫苗的核心在于设计有效的mRNA序列。AI可预测并优化序列的稳定性和翻译效率,以确保抗原正确表达和免疫反应的激发。在此基础上,通过评估不同序列的免疫反应强度,进一步优化设计出更有效的疫苗。2024年4月,美国疫苗巨头莫得纳与Open AI宣布继续合作利用生成式AI推动mRNA技术在药物研发中的应用。其新开发的AI智能体“Dose ID”可通过自动化工具优化疫苗的安全性和整体特性,选择最佳剂量,并生成定制的可视化数据报告,提升数据处理和临床决策效率。
快速响应病毒变异。病毒的变异可能会降低疫苗效力,而AI技术则可提升应对变异的速度和灵活性。具体来说,AI通过大数据分析实时监测病毒基因突变,识别变异株的传播趋势,预测哪些关键突变位点可能削弱疫苗效力,并迅速优化。在新冠mRNA疫苗研发中,AI通过快速分析Alpha、Delta、Omicron等变异株的基因序列,指导疫苗更新和优化策略,确保疫苗的持续有效性。2024年9月,ARPA-H向“计算实验预测广泛病毒疗效的抗原(APECx)”项目投资2.04亿美元,用于开发计算工具包,设计可防御多种病毒的通用疫苗。10月,中山大学和阿里云等 利用LucaProt算法发现了180个超群和16万余种新RNA病毒,是已知种类的近30倍,成为有史以来最大的病毒物种发现,极大推进了对病毒多样性和演化机制的理解,有助于未来病毒预警和疫苗快速优化。
(三)AI在蛋白质工程中的应用
酶特性优化与改造。AI对酶的优化主要是围绕提升催化效率、稳定性以及底物特异性展开的。传统酶工程通常依赖随机突变和实验筛选,而AI可以通过分析酶-底物复合物的三维结构,识别关键作用位点进行改造,从而增强酶的反应速度和催化能力。2024年1月,德国马克斯·普朗克陆地微生物研究所 开发出合成生物化学循环“THETA循环”,通过机器学习与理性设计,对关键酶进行优化,使乙酰辅酶A产量提高了100倍,为在细胞工厂中实现高度复杂的天然二氧化碳固定途径铺平道路。
新酶设计与绿色化学。AI能够针对特定底物或反应路径,设计出具有特定功能的全新的酶,如能降解塑料、不会生成有害副产物的新型酶等,以推动绿色化学和可持续发展的进程。2024年10月,山东大学和青岛华大基因研究院等 建立了迄今为止最大、最完整的“全球海洋微生物组数据库”,并从中发现了一种能在高盐和高温环境下稳定降解PET塑料的酶dsPETase05,其降解率高达83%,有望实现“高效灭塑”。11月,中国科学技术大学和哈佛医学院 开发出深度生成模型PocketGen,可根据给定的配体分子和蛋白质支架,同时预测蛋白质口袋的序列和结构,结合成功率达95%,速度比物理方法快10倍,氨基酸回收率超过64%,可为高效酶、生物传感器等提供有力工具。
三、AI推动蛋白质领域的产业生态发展
当前,AI正加速推动蛋白质科学从基础研究向产业化迈进,逐步构建起涵盖上游算力算法数据、中游蛋白质设计与药物研发、下游生产与市场应用的完整产业链。上游包括支撑AI运行的算力、算法、数据及生物实验设备。其中,英伟达、AMD、微软等行业巨头的积极布局已成为显著趋势。依托强大算力,深度学习、生成对抗网络、变分自编码器等模型不断推动蛋白质结构预测技术的进步。中游是以AlphaFold为代表的AI预测蛋白质结构技术,为新药开发和蛋白质工程提供了有力工具。除DeepMind、Profluent Bio、Genesis Therapeutics外,国内企业如百图生科、智峪生科、深势科技、分子之心等也在积极探索这一领域。下游应用主要可以分为生物医药和生物制造两大领域。在生物医药领域,AI广泛应用于新药研发、疫苗设计和个性化疗法的制定;在生物制造领域,AI助力优化蛋白质生产工艺,提升酶制剂、抗体药物等大分子药物的产量与质量,加速合成生物学和细胞工厂的构建,推动大规模产业化落地。
随着AI+蛋白质产业链的构建与发展,各国政府积极布局,出台政策鼓励AI与生物制药深度融合。美国国家科学基金会和DARPA等机构资助了多项AI蛋白质研发项目,以期抢占未来生物技术竞争的制高点。然而,AI在蛋白质设计中的安全性、有效性和伦理问题引发了监管层的关注,构建适应AI模式的审批流程和伦理框架已成为重要议题。2024年7月,美国国土安全部发布了2个应对人工智能威胁的新文件:《关于滥用人工智能开发和生产化学、生物、放射和核(CBRN)》和《降低关键基础设施面临的人工智能风险指南》。报告围绕使用AI发起的攻击、针对AI系统的攻击以及AI设计和实施中的失误三个类别进行分析,并提出治理、绘制地图、测量和管理四部分缓解策略,供关键基础设施所有者和用户在处理人工智能风险时进行参考。美国战略风险委员会的诺兰战略武器中心发布《人工智能的进步和生物风险的增加》报告,强调AI的进步增加了生物风险,并指出出口管制是降低生物人工智能风险、促进生物经济贸易的关键工具。
参考资料:
1.Nomburg J, Doherty E E, Price N, et al. Birth of protein folds and functions in the virome[J]. Nature, 2024, 633(8030): 710-717.
2.Lu W, Zhang J, Huang W, et al. DynamicBind: Predicting ligand-specific protein-ligand complex structure with a deep equivariant generative model[J]. Nature Communications, 2024, 15(1): 1071.
Lyu J, Kapolka N, Gumpper R, et al. AlphaFold2 structures guide prospective ligand discovery[J]. Science, 2024: eadn6354.
4.Ren F, Aliper A, Chen J, et al. A small-molecule TNIK inhibitor targets fibrosis in preclinical and clinical models[J]. Nature Biotechnology, 2024: 1-13.
5.https://everycure.org/every-cure-to-receive-48-3m-from-arpa-h-to-develop-ai-driven-platform-to-revolutionize-future-of-drug-development-and-repurposing/#:~:text=ARPA-H contract will supercharge Every Cure’s work to,can be repurposed to treat currently untreated diseases.
6.Hou X, He Y, Fang P, et al. Using artificial intelligence to document the hidden RNA virosphere[J]. Cell, 2024, 187(24): 6929-6942. e16.
7.Luo S, Diehl C, He H, et al. Construction and modular implementation of the THETA cycle for synthetic CO2 fixation[J]. Nature Catalysis, 2023, 6(12): 1228-1240.
8.Chen J, Jia Y, Sun Y, et al. Global marine microbial diversity and its potential in bioprospecting[J]. Nature, 2024, 633(8029): 371-379.
9.Zhang Z, Shen W X, Liu Q, et al. Efficient Generation of Protein Pockets with PocketGen[J]. bioRxiv, 2024.
作者简介
戴吉 国务院发展研究中心国际技术经济研究所研究三室
研究方向:生物领域形势跟踪及关键核心技术、前沿技术研究
编辑丨郑实
研究所简介
国际技术经济研究所(IITE)成立于1985年11月,是隶属于国务院发展研究中心的非营利性研究机构,主要职能是研究我国经济、科技社会发展中的重大政策性、战略性、前瞻性问题,跟踪和分析世界科技、经济发展态势,为中央和有关部委提供决策咨询服务。“全球技术地图”为国际技术经济研究所官方微信账号,致力于向公众传递前沿技术资讯和科技创新洞见。
地址:北京市海淀区小南庄20号楼A座
_er
来源:全球技术地图