摘要:蛋白质作为最重要的生命构建单元之一,其序列和功能之间的映射(适应性景观,Fitness landscape)的针对性研究对于蛋白质理性设计以及工程应用都有极大的意义。目前人们只能对于蛋白质序列-功能关系进行少量低纬度的点采样,例如深度突变搜索(DMS)、单位点
蛋白质作为最重要的生命构建单元之一,其序列和功能之间的映射(适应性景观,Fitness landscape)的针对性研究对于蛋白质理性设计以及工程应用都有极大的意义。目前人们只能对于蛋白质序列-功能关系进行少量低纬度的点采样,例如深度突变搜索(DMS)、单位点饱和突变等,或是利用随机建库等方式以极低概率捕获序列与功能耦连的关键信息。一些更高效的定向进化工具如PACE、OrthoRep等会使得蛋白质空间的搜索深度加深,但由于其专注于产生高适应性突变体的特征使得其对于蛋白功能的全局认知不足。一些计算方法成功构建起序列-结构之间的精确关联,例如2024年诺贝尔化学奖获奖者开发的AlphaFold, RoseTTAFold等结构预测或设计算法,并进一步试图利用深度学习构建序列和功能的映射关系,但由于缺乏高质量大规模的序列-功能映射数据,计算方法的可延展性始终有所限制。总之,受限于蛋白质序列空间的高维度与复杂性(例如,100个氨基酸的蛋白质设计空间达到10130,远超宇宙中的原子数目~1080),研究人员对这一空间及其映射规律的理解尚浅,亟待丰富与完善。
近日,清华大学药学院张数一团队提出了对蛋白质序列-功能空间进行压缩的概念,开发了进化扫描系统,可以高效获取空间压缩后的锚点(Anchor),并开发了相应的EvoAI系统,实现了对蛋白质序列-功能空间的进化压缩和AI重构,压缩比可以达到1048,对于理解蛋白质序列-功能空间映射关系引入了新的视角。
研究人员首先构建了进化搜索系统(Evolutionary Scanning, EvoScan)用以对蛋白进行分区域定向进化。该系统改造了噬菌体辅助的连续定向进化系统(PACE)。其中,突变体系来源EvolvR系统中enCas9-PolIM5复合蛋白,通过构建其诱导表达体系来创建靶向分区域突变质粒(TP)。为了测试系统的可行性,研究人员先后利用了绿色荧光蛋白EGFP的纳米抗体突变体的回复突变实验测试蛋白-蛋白相互作用的靶向进化,以及利用SARS-CoV-2主蛋白酶Mpro蛋白对其抑制剂的逃逸效应的进化测试蛋白-配体相互作用的靶向进化,证明该系统可以对gRNA覆盖的上下游约30bp的区域进行靶向进化并得到功能提升的突变体。随后,研究人员利用EvoScan进化了转录因子AmeR对于特定DNA序列的抑制能力,设计了13条gRNA对于蛋白进行区域分割,最终在8个区域中找到氨基酸突变。研究人员对这些区域进行随机排序,构建了8个不同的进化路径,使进化过程可以遍历以上8个区域,最终产生了82个功能提升、维度各不相同的锚点,并对上述锚点进行基于流式荧光的功能测试,系统生物学分析以及上位效应(Epistasis)的分析与计算等。结果显示,尽管绝大多数突变对于蛋白功能都有不同程度的提升,但不同的单点突变对于不同的突变组合而言,产生的功能效应并非都是提升,一些突变位点能够提升蛋白功能,但会干扰其他的突变位点的效应,这反映了蛋白质序列空间的高复杂度。
图1.EvoScan系统构成和蛋白质序列-功能空间压缩
为了理解和重构这个高纬度复杂空间,研究人员设计了与EvoScan配套的深度学习算法,并命名为EvoAI。该方法结合了预训练的GeoFitness模型和蛋白质语言模型(ESM-2),加上多层感知器(MLP),以提高预测蛋白质突变效应的准确性。在本研究中EvoAI利用AmeR蛋白82个突变体的序列-功能映射信息对模型加以训练,并生成了不同于上述突变体的共1093个新蛋白,通过对于预测强度的排序,研究人员测试了预测强度最高的10个突变体,并将其与仅利用传统DMS方法预测得到的10个具备相同突变数量的,强度最高的10个突变体进行强度对比,结果显示,通过EvoAI预测得到的突变体均有显著的功能提升,而DMS方法得到的突变体多数均无显著功能提升,甚至某些突变体不再具备明显的抑制功能。这表明EvoAI系统识别到了通过信息压缩得到的高维度蛋白信息,并有效地生成了具备功能的突变体。
图2.EvoAI原理示意图和蛋白质序列-功能空间重构
与现有方法相比,该方法有几个重要优势。首先,它实现了序列空间广泛、均匀且精确的采样,可以快速探索高维并生成更多样化和功能性的突变体,并提供有关序列-功能映射的更丰富信息。其次,它整合了基于经验的进化扫描和深度学习模型,充分利用了这两种不同方法的优势。研究人员可以使用深度学习得到的关键特征来动态地指导扫描过程。可解释性深度学习在未来的进一步发展可能会揭示潜在的进化规则,并为蛋白质如何适应和克服进化限制提供见解。第三,它可以进化和研究缺乏结构信息或涉及具有挑战性的相互作用的蛋白质。EvoScan可以针对不同的蛋白质相互作用捕获蛋白质锚点,如蛋白质-蛋白质、蛋白质-配体和蛋白质-核酸相互作用。文章中提出的蛋白质序列-功能空间压缩的概念也有望应用于不同种类的蛋白质,并对自然界如何在有限时间内完成蛋白质空间的搜索和物种的高效进化产生一定的启发作用。
相关研究成果以“EvoAI 实现蛋白质序列空间的极端压缩和重构”(EvoAI enables extreme compression and reconstruction of the protein sequence space)为题,于11月11日发表于《自然·方法》(Nature Methods)。
清华大学药学院2020级博士生马梓源,2019级博士生李文杰、沈运浩以及生命学院2019级博士生徐运昕为论文共同第一作者,药学院助理教授张数一为论文通讯作者。生命学院副教授龚海鹏与药学院研究员田博学为研究提供了重要帮助。研究得到国家科技部重点研发计划、国家自然科学基金、清华大学笃实专项基金和北京生物结构前沿研究中心的资助。
论文链接:
来源:清华大学一点号