摘要:在这里,北京大学的研究团队通过微调预训练的蛋白质语言模型,开发了一个基于序列的深度学习模型,即蛋白质重要性计算器 (PIC,Protein Importance Calculator)。
编辑 | 萝卜皮
人类必需蛋白(HEP)对于个体的生存和发育必不可少。然而,鉴定 HEP 的实验方法通常成本高昂、耗时费力。
此外,现有的计算方法仅在细胞系水平上预测 HEP,但 HEP 在活体人类、细胞系和动物模型中有所不同。
在这里,北京大学的研究团队通过微调预训练的蛋白质语言模型,开发了一个基于序列的深度学习模型,即蛋白质重要性计算器 (PIC,Protein Importance Calculator)。
PIC 不仅大大优于现有的预测 HEP 方法,而且还提供了跨人类、细胞系和小鼠三个层面的全面预测结果。
此外,团队定义了源自 PIC 的蛋白质必需评分,以量化人类蛋白质的必需性,并通过一系列生物学分析验证其有效性。他们还通过识别乳腺癌的潜在预后生物标志物和量化 617,462 种人类微蛋白的必需性,来证明蛋白质必需评分的生物医学价值。
该研究以「Comprehensive prediction and analysis of human protein essentiality based on a pretrained large language model」为题,于 2024 年 11 月 27 日发布在《Nature Computational Science》。
必需蛋白由必需基因编码,对生物体的生存至关重要,通常参与基本的生物过程。因此,从人类蛋白质组中识别必需蛋白对于疾病的预防、诊断和治疗至关重要。然而,没有一种蛋白质是绝对必需的;只有功能才是绝对必需的。
人类蛋白质的必要性取决于环境,与细胞类型和生理阶段密切相关。此外,人类必需蛋白质在活体人类、人类细胞系和动物模型中存在很大差异。
为了全面系统地评估人类蛋白质的必要性,北京大学的研究人员提出了一种基于深度学习的方法—— PIC;通过微调 PLM,与现有方法相比,该方法在人类蛋白质必要性预测任务上取得了最先进的性能。
PIC 模型概述
PIC 是一系列用于全面预测人类必需蛋白质的深度学习模型,包括三个不同级别的共 325 个 PIC 模型:一个用于人类水平的模型(PIC-human),一个用于小鼠水平的模型(PIC-mouse)和 323 个用于细胞系水平的模型(PIC-cell)。
蛋白质必需性数据分别从 gnomAD、OGEE-MGI 和 Project Score 数据库收集,以训练 PIC-human、PIC-mouse 和 PIC-cell(图 1a)。
图 1:整体工作流程。(来源:论文)
所有 PIC 模型都具有相同的架构,包括三个主要模块:嵌入、注意和预测(图 1b)。
对于 323 个细胞级 PIC 模型,研究人员在集成学习框架中使用软投票策略来汇总 323 个细胞级 PIC 模型的预测结果,从而得到高性能的 PIC 细胞模型。
此外,团队还利用集成学习开发了 28 个疾病级 PIC 模型和 19 个组织级 PIC 模型,能够预测人类蛋白质在特定疾病或组织中的必要性。
为了优化 PIC 模型架构,他们进行了一系列消融研究和超参数优化实验。结果促使研究人员选择具有 6.5 亿个参数的 ESM-2 模型进行蛋白质序列特征提取,应用平均池化方法生成完整蛋白质序列的表示(图 2)。
图 2:PIC 模型的消融研究。(来源:论文)
PIC 模型的整体性能
研究人员使用准确度、召回率、精确度、F1 分数、AUROC(area under the receiver operating characteristic curve)和 AUPRC(area under the precision-recall curve)等指标评估了 PIC 模型在各自独立测试数据集上的性能。
PIC-human 的 AUROC 最高,为 0.9132,其次是 PIC-mouse,AUROC 为 0.8736。
KYSE-70 细胞级模型的 AUROC(0.8579)是 323 个细胞级 PIC 模型的中位数,被选为代表 PIC 细胞模型的平均性能(图 3a)。
图 3 :PIC模型的性能展示及比较。(来源:论文)
为了进一步评估 PIC 模型的性能,研究人员将其与三种广泛使用的开源基于序列的蛋白质必要性预测模型进行了比较。在所比较的模型中,EP-EDL 和 EP-GBDT 是在细胞活力测定的综合数据集上进行训练的,而 DeepCellEss 是一个基于 323 个人类细胞系数据集数据的细胞系特定模型。
此外,团队设计了 PIC-base 作为自基线模型,该模型使用 ESM-2 直接输出的序列级特征向量进行蛋白质必要性预测。结果表明,与现有方法相比,PIC 将 AUROC 提高了 5.13–12.10%,并且还显著提高了准确率、精确率、F1 得分和 AUPRC。
鉴于DeepCellEss是细胞系特异性的,研究人员进一步在 323 个细胞系中分别比较了 PIC 和 DeepCellEss 的 AUROC 和 AUPRC 值。
结果显示,与 DeepCellEss 相比,PIC 在 323 个细胞系中的 AUROC 和 AUPRC 分别平均提高了 9.64% 和 10.52%(图 3b,c)。此外,19 种组织水平和 28 种疾病水平 PIC 细胞模型的 AUROC 值范围为 0.7543 至 0.9029。
图 4:PIC 模型产生的 PES 的生物学相关性。(来源:论文)
未来探索
这里的 PIC 模型考虑了人类蛋白质重要性在不同水平上的变化,同时预测活体人类、人类细胞系和动物模型中蛋白质的必要性分数。研究人员表示,他们相信 PIC 将有利于用户全面预测和了解人类蛋白质的重要性,有助于发现治疗靶点和预后生物标志物。
图 5:基于不同层级PES的跨层分析。(来源:论文)
未来该领域的探索和改进包括:(1)增强预测 PES 的可解释性。虽然该团队利用 PIC 输出的概率值定义了 PES,并对其生物学含义进行了初步的探索和分析,但对PES的核心生物学含义缺乏深入的解释,这在很大程度上是由于神经网络模型是一个黑盒子。
(2)预测和研究不同物种间蛋白质的必要性。目前,PIC 仅限于在三个层面上预测人类蛋白质的必要性,缺乏预测其他物种(如细菌或其他微生物)蛋白质必要性的能力。这种限制主要是由于非人类物种的必需性数据稀缺。
未来,构建一个统一的模型或多个物种特定模型来预测蛋白质的必需性,可以研究跨物种的共性和必需蛋白质的差异。这可能对药物发现具有重要意义,例如针对细菌中的必需蛋白质进行抗生素开发。
(3)结合蛋白质结构信息提升预测效果。PIC 模型是一种基于序列的深度学习模型,仅根据输入的蛋白质序列预测蛋白质的必要性。然而,结构信息的缺失可能会限制模型的性能。未来的模型可以整合蛋白质结构特征,从而可能更准确地预测蛋白质的必要性。
来源:科学冲锋号