摘要:蛋白质是生命活动的基本执行者,既是药物与诊断分子的靶点,也是工业催化和合成生物学的核心材料。长期以来,蛋白质设计依赖于两大路径:一是模仿自然选择的定向进化,二是基于结构与机理理解的理性设计。前者需要大规模突变和筛选,耗时费力;后者依赖于高分辨率结构和机理知识,
蛋白质是生命活动的基本执行者,既是药物与诊断分子的靶点,也是工业催化和合成生物学的核心材料。长期以来,蛋白质设计依赖于两大路径:一是模仿自然选择的定向进化,二是基于结构与机理理解的理性设计。前者需要大规模突变和筛选,耗时费力;后者依赖于高分辨率结构和机理知识,但受限于数据缺乏与计算力不足。随着设计对象规模和复杂性不断提升,这些方法在探索广袤的序列空间时愈加力不从心。
近年来,人工智能的突破正在重塑这一格局。深度学习模型能够从海量序列和结构数据中自动提取规律,结合生成模型、语言模型与扩散模型,实现从序列到结构、从功能到可开发性的全流程预测与设计。这一范式转变,使蛋白质工程从“依赖经验的试错”逐步走向“可预测的设计”,大幅缩短研发周期,提升设计效率,并推动蛋白质研究进入“可编程”的新阶段。
近期,哈佛大学 George Church 团队联合莫纳什大学、格里菲斯大学等高校在 Nature Reviews Bioengineering 发表综述“AI-driven protein design”,系统总结了人工智能在蛋白质设计中的应用框架,提出涵盖七大工具包的端到端路线图,并通过多个案例展示 AI 驱动的设计潜力。这一工作不仅为学术界提供了系统性参考,也为生物医药与工业应用的转化奠定了方法论基础。
从“试错”到“预测”:AI如何重构蛋白质设计?
蛋白质设计的核心目标可分为功能、结构和可开发性三大维度。传统方法在应对这些目标时往往面临瓶颈。例如,定向进化强调通过大规模突变与筛选获得改良功能,却难以捕捉潜在机理;理性设计则依赖序列-结构-功能关系的明确理解,却受限于结构解析与机理认知的不完整。
人工智能的加入改变了这一困境。结构预测模型如 AlphaFold2 与 ESMFold,实现了接近实验分辨率的结构建模,使未知蛋白的空间构象预测不再依赖同源模板。语言模型和扩散模型则能够在序列层面生成具有潜在功能的多样化候选,突破了传统方法无法触及的设计空间。同时,虚拟筛选与强化学习的结合,使设计流程具备自动化迭代能力,在计算机中完成对稳定性、结合力、免疫原性等多维度的筛选,再将高置信度候选提交实验验证。通过这种方式,AI 不仅大幅减少了实验负担,还使得蛋白质设计具备更强的可控性和预测性。
图 | 蛋白质设计策略和工作流程
七大AI工具包:构建端到端设计体系
综述中提出的七大 AI 工具包,覆盖了从目标设定到实验验证的全链条:
T1 数据库搜索:通过序列或结构比对快速定位同源模板,为后续设计提供参考。传统的 BLAST 与现代的 Foldseek 能够在海量序列和结构数据库中高效检索。
T2 结构预测:利用深度学习模型直接从序列推断三维结构,代表性工具包括 AlphaFold2、RoseTTAFold 和 ESMFold。这些方法使得“孤儿蛋白”的折叠预测成为可能,并拓展至蛋白-蛋白、蛋白-核酸复合物的预测。
T3 功能预测:通过注释、结合位点预测和翻译后修饰预测,推断蛋白可能的生物学功能与作用机制,如 NetGO 和 DeepSite。
T4 序列生成:借助语言模型与进化信息,从功能标签或结构骨架生成候选序列。UniRep、ProGen 和 ProteinMPNN 等工具能在保持可折叠性的同时拓展设计多样性。
T5 结构生成:从模板、基序或完全从零开始设计骨架,并与序列共同优化。RFDiffusion 和 Chroma 可生成符合几何约束的骨架结构,提升新颖性与稳定性。
T6 虚拟筛选:在实验前对候选进行体外评估,预测结合亲和力、稳定性、免疫原性等关键指标,显著提高筛选效率。DOVE 与 DeepSoluE 已在抗体亲和力优化和蛋白可溶性预测中展现出价值。
T7 DNA合成:将蛋白序列回译为适合宿主表达的 DNA,结合密码子优化与合成技术,实现快速实验验证。CodonTransformer 与 Variational Synthesis 推动了 DNA 合成的规模化与高效化。
这七大工具包相互配合,形成了“AI 工厂”式的蛋白质设计流水线。
图 | 用于蛋白质设计的人工智能工具包
应用案例:AI 驱动的多维突破
AI 在不同类型蛋白设计中的应用已经取得实证成果。在基因治疗领域,研究者利用 AI 生成并筛选了超过 1010 个腺相关病毒(AAV)变体,经过虚拟筛选与实验验证,数十万个候选展示出优异的转导能力,部分突变体在远离野生型序列的情况下依然保持功能,为突破血脑屏障等难题提供了新型载体。在抗体优化中,ESM 语言模型被用于快速生成突变体,仅两轮实验筛选便实现了超过百倍的亲和力提升。这表明 AI 不仅能够探索天然序列之外的空间,还能大幅缩短研发周期。在酶工程中,AI通过稳定性预测与序列生成,帮助研究团队优化工业脂肪酶的热稳定性,使其在高于 60℃ 的条件下仍能保持活性,显著提升了工业应用的适用性。
此外,结合 trRosetta、RifDock 与 ProteinMPNN 等工具的工作,成功设计出一种全新的荧光素酶,不仅具备高效催化能力,还具有优异的热稳定性和特异性,为活体成像和生物传感开辟了新路径。
图 | 人工智能驱动的蛋白质设计案例研究
产业化路线图:设计-合成-验证的闭环
在产业应用中,AI 驱动的蛋白质设计形成了系统化的闭环工作流。对于定向进化路径,研究者可先选择合适父本蛋白,通过 AI 识别关键区域并引入定向突变,生成多样化变体库,经虚拟筛选后再进入实验验证。对于理性设计路径,则可从结构骨架设计开始,利用逆折叠模型生成相应序列,结合虚拟筛选优化后直接进入DNA 合成与表达。这一闭环流程显著提升了实验成功率,缩短了研发周期,并使蛋白质设计更具可控性和规模化潜力,为未来生物制造提供了标准化路线。
尽管 AI 在蛋白质设计中展现出巨大潜力,但仍存在数据不足、模型可解释性有限以及伦理与安全风险等挑战,尤其是在功能注释、动力学特征和非典型结构数据的缺失方面,制约了模型的泛化能力,同时涉及病原体改造的研究也需要严格规范。
未来的发展方向在于构建更大规模且高质量的序列与功能数据库,发展能够融合序列、结构和实验数据的多模态模型,提升模型的可解释性与可控性,并推动 AI 在全蛋白质组设计和复杂生物体系重编程中的应用。AI 正逐步将蛋白质设计转变为高度工程化的学科,使研究者能够在可预测和可验证的框架下创造全新的生命材料。对于中国而言,在合成生物学、人工智能和绿色制造等领域已具备坚实基础,如果能够在数据集建设、算力平台和产业化转化方面形成合力,将有望在新药研发、工业酶工程和可持续材料等关键方向上占据战略制高点。
参考链接:
1.Koh, H.Y., Zheng, Y., Yang, M. et al. AI-driven protein design. Nat Rev Bioeng (2025). https://doi.org/10.1038/s44222-025-00349-8.
免责声明:本文旨在传递合成生物学最新讯息,不代表平台立场,不构成任何投资意见和建议,以官方/公司公告为准。本文也不是治疗方案推荐,如需获得治疗方案指导,请前往正规医院就诊。
来源:生辉SciPhi