Nature Methods | 从“猜”到“预见”:AI模型PUPS揭示单细胞蛋白质定位的秘密

B站影视 港台电影 2025-05-20 18:26 1

摘要:蛋白质(proteins)在细胞(cells)内拥有各自特定的“地址”(subcellular localization),这对它们的正常功能至关重要。一旦定位错误(mislocalization),往往与众多疾病(diseases)直接相关。因此,绘制精确的

蛋白质(proteins)在细胞(cells)内拥有各自特定的“地址”(subcellular localization),这对它们的正常功能至关重要。一旦定位错误(mislocalization),往往与众多疾病(diseases)直接相关。因此,绘制精确的蛋白质亚细胞“地图”是生命科学的核心任务。

尽管人类蛋白质图谱(Human Protein Atlas, HPA)等大规模项目已描绘了上万种蛋白质在部分细胞系(cell lines)中的定位,但这份地图远非完整。HPA覆盖了约13,147个基因(占已知人类基因的65%),但每个蛋白质最多仅在数据集总共37个细胞系中的三株中测量过,实验手段也限制了单次可标记的蛋白质数量。这意味着蛋白质与细胞系的绝大多数组合仍然未知。

更具挑战的是,蛋白质定位并非静态,它在不同细胞系间存在差异,甚至在同一细胞系内的单个细胞(single cells)间也有显著变异性(variability),例如受细胞周期影响。这种动态性难以通过现有有限数据捕捉。

计算模型被寄予厚望以填补空白。纯粹基于蛋白质序列(protein sequences)的模型虽能泛化到未见蛋白质,却忽视了细胞环境特异性。而基于细胞图像(cellular images)的模型虽能捕捉单细胞变异性,却依赖实际图像输入,无法预测新蛋白质或未测量细胞中的定位。亟需一个模型,能跨越蛋白质和细胞系的界限,预测未知定位,并揭示单细胞变异性。

5月13日《Nature Methods》的研究报道“Prediction of protein subcellular localization in single cells”,提出PUPS(Prediction of Unseen Proteins' Subcellular localization)方法,创新性地结合了蛋白质语言模型(protein language model)和图像修补模型(image inpainting model)。它利用蛋白质序列实现对未知蛋白质的泛化,借助细胞标志物图像(landmark stains)捕捉单细胞变异性并泛化到未知细胞系。实验验证表明,PUPS能在训练数据之外的全新实验中准确预测蛋白质定位,其预测的变异性与实际观察一致。这为理解蛋白质在活细胞内的动态行为提供了一个强大的计算工具。

现有地图的困境:我们对蛋白质位置了解得太少

研究人员很早就开始尝试绘制这张地图了。最有名的“探险成果”之一就是人类蛋白质图谱(Human Protein Atlas, HPA)。它通过免疫荧光显微镜(immunofluorescence microscopy)等技术,在多种细胞系(cell lines)中对数千种蛋白质进行了空间定位。

听起来很棒,对吧?但是,细胞的“城市”实在太大了,里面的“居民”和“住所”组合多到令人难以想象。HPA虽然是目前最大的蛋白质亚细胞定位数据集之一,但它只涵盖了由13,147个基因编码的蛋白质,这大约是已知人类蛋白质编码基因总数的65%。而且,每个蛋白质最多只在3个细胞系中分析过,整个数据集总共也就包含了37种细胞系。

想象一下,如果地球上只有几十个城市被绘制在地图上,而你却需要去世界上任何一个地方,这张地图显然是远远不够的。更何况,蛋白质的定位并不是一成不变的,它可能在不同细胞系之间有差异,甚至在同一个细胞系内的单个细胞之间也可能存在变异性(variability),比如细胞周期(cell cycle)等因素都可能影响蛋白质的位置。现有的数据集很难捕捉到这种细致的、跨细胞系和单细胞层面的变异。同时,通过实验手段同时标记和观察大量蛋白质也是有限制的,典型实验一次可能只能标记约30种蛋白质。

这给我们留下了一个巨大的空白:对于那些HPA中没有分析的蛋白质,以及那些未在HPA中使用的细胞系,它们的蛋白质位置信息,尤其是单细胞层面的位置信息,我们几乎一无所知。我们需要新的工具来“预测”这张缺失的地图。

PUPS登场:一款能预测“陌生”蛋白质位置的AI向导

好消息来了!来自麻省理工学院(MIT)等机构的研究人员开发了一种新的计算方法,他们称之为PUPS(Prediction of Unseen Proteins' Subcellular localization),意为“预测未知蛋白质的亚细胞定位”。PUPS就像一个聪明的AI向导,它能够预测那些在训练数据集中从未见过的蛋白质在从未见过的细胞系中的亚细胞定位,而且是预测到单细胞水平!

PUPS最厉害的地方在于,它不像传统方法那样只依赖蛋白质序列或只依赖细胞图像。它巧妙地结合了两者:

蛋白质序列信息: 提供了蛋白质本身的“身份”和内在属性,使模型能够泛化到新的蛋白质。

细胞标志物图像信息:提供了细胞内部的“环境”信息,使模型能够捕捉单细胞变异性和细胞类型特异性。

通过融合这两类信息,PUPS能够克服现有方法的局限性,预测出更全面、更精细的蛋白质定位图景。

PUPS的秘密武器:蛋白质语言和细胞图像的魔术

那么,PUPS具体是怎么做到的呢?它主要依赖两个强大的AI模型:

蛋白质语言模型(Protein Language Model):想象一下,蛋白质序列就像一种特殊的语言。PUPS利用一个预训练的蛋白质语言模型(具体是ESM-2模型,曾被证明能准确预测蛋白质结构),来理解和学习蛋白质序列中蕴含的特征。这个模型会将蛋白质序列(取前2000个氨基酸)转化为一种高维度的“序列表示”(sequence representation),捕捉到与蛋白质定位相关的模式。同时,PUPS还训练了一个辅助任务(auxiliary task):利用这个序列表示来预测蛋白质可能属于哪个细胞区室,这有助于蛋白质序列模块更好地学习定位相关信息。

图像修补模型(Image Inpainting Model):细胞标志物图像(cellular landmark images)是PUPS的另一个关键输入。这些图像通常标记了细胞内的几个关键结构,比如细胞核(用DAPI染色)、微管(microtubule)和内质网(endoplasmic reticulum, ER)。PUPS使用一个卷积神经网络(convolutional neural network, CNN),特别是借鉴了U-Net的架构,来从这些标志物图像中学习细胞内部的“环境”信息,生成一种“图像表示”(image representation)。神奇的是,这个模型设计得有点像“图像修补”,它利用已知的标志物信息来推断细胞内部的整体结构和潜在的空间关系。

最后,PUPS将蛋白质的“序列表示”和细胞的“图像表示”结合起来(通过连接,也就是concatenate),输入到一个新的卷积网络中,最终预测出目标蛋白质在特定细胞中的图像。模型的训练目标就是让预测的蛋白质图像与实验中实际观察到的图像尽可能相似(最小化均方误差,mean-squared error, MSE)。

真金不怕火炼:PUPS在“未见过”的实验中表现如何?

研究人员为了验证PUPS的预测能力,进行了严格的测试,包括在HPA数据集中留出(held-out)一部分数据进行测试,甚至在HPA之外进行了全新的实验验证。

首先是HPA数据集内的测试。研究人员从HPA中随机留出了9个细胞系和10,355个蛋白质用于测试,这些数据在训练过程中是完全不可见的。为了更全面地评估,他们将测试数据分成了两组:一组(holdout 1)包含与训练数据中蛋白质更相似的蛋白质,另一组(holdout 2)包含来自不同蛋白质家族、序列相似性较低的蛋白质。

结果令人振奋:

PUPS在holdout 1测试集上的蛋白质图像预测中位数MSE仅为0.00705。

在更具挑战性的holdout 2测试集上,中位数MSE也仅为0.00960。

与此形成鲜明对比的是,一个简单的基准模型(random baseline,假设蛋白质均匀分布在细胞内)的预测中位数MSE高达0.408(holdout 1)和0.412(holdout 2)。这意味着PUPS的预测误差远低于随机水平,能够非常准确地预测未知蛋白质的图像。

为了进一步证明蛋白质序列和细胞图像结合的重要性,研究人员还进行了“消融实验”(ablation study),也就是移除或改变模型的不同部分。结果显示,无论是移除辅助任务、用简单的one-hot编码代替ESM-2序列表示,还是移除图像修补模块、减少网络深度或移除残差连接,都会显著降低模型预测未知蛋白质图像的准确性。这有力地证明了PUPS融合蛋白质序列和细胞图像设计的必要性和有效性。

更重要的是,研究人员还在HPA数据集之外,对9个蛋白质(包括跨细胞系和单细胞变异性高及低的蛋白质)在5个新的细胞系(其中3个从未用于模型训练,比如A375)中进行了全新的实验验证(experimental validation)。他们通过免疫荧光染色获得蛋白质的真实图像,并与PUPS预测的图像进行比较。

他们量化了蛋白质在细胞核内的比例(intranuclear proportion),发现PUPS预测的核内比例与实验测量的核内比例高度相关,皮尔逊相关系数(Pearson correlation)高达0.767(95% CI 0.757-0.777)。这个结果证明,PUPS不仅能在已知的数据集上预测,还能推广到全新的生物学实验场景中。

透过PUPS的眼睛:蛋白质位置的秘密和变异性

PUPS强大的预测能力,使我们能够以前所未有的方式研究蛋白质定位的变异性。

跨细胞系的定位变异性:研究人员利用PUPS预测的图像,量化了蛋白质在不同细胞系之间核内比例的标准差(s.d.),以此衡量其定位的变异程度。他们发现,PUPS对蛋白质变异性程度的排名与实际测量的排名高度一致。分析那些预测的跨细胞系变异性最高的蛋白质发现,它们富集在与转录(transcription)、细胞分化(cell differentiation)和染色质调控(chromatin regulation)相关的GO词条中。而那些变异性最低的蛋白质则倾向于稳定地位于细胞质(cytosol)中,而不是细胞核。这揭示了不同生物学功能与蛋白质定位稳定性之间的联系。

单细胞内的定位变异性:PUPS还能预测同一个细胞系内单个细胞间的蛋白质定位变异性。研究人员量化了单细胞核内比例的方差。PUPS预测的单细胞变异性排名与真实变异性排名同样显示出高度一致性。预测的变异性最高的蛋白质富集在与细胞分裂(cell division)、转录、DNA双链断裂修复(double-strand break repair)和细胞凋亡(apoptosis)相关的GO词条中。这表明,PUPS捕捉到的单细胞变异性很大程度上可能与细胞周期等生理状态有关,而且这种变异性可以从细胞的形态信息(即标志物图像)中得到预测,这暗示单细胞定位变异性并非完全随机。

学习蛋白质和细胞的表示:PUPS之所以能够泛化和捕捉变异性,是因为它学习到了有意义的蛋白质序列和细胞图像表示。对蛋白质序列表示进行降维可视化发现,具有相似定位的蛋白质在表示空间中聚集在一起。更重要的是,通过分析Positional Shapley值(一种解释AI模型预测的技术),研究人员发现模型能够识别蛋白质序列中对定位至关重要的氨基酸残基(amino acid residue)或结构域(domain)。例如,模型识别出线粒体蛋白质AARS2的N端线粒体转运肽(N-terminal mitochondrial transit peptide)对于预测线粒体定位至关重要;预测细胞核蛋白质DDIT3时,模型突出显示了含有已知核定位信号(nuclear localization signal, NLS)的基本亮氨酸拉链结构域(basic leucine zipper domain)的重要性。对于具有高单细胞变异性的蛋白质N4BP2,模型识别出其无序结构域(disordered domain)与细胞核定位有关,而泛素结合CUE结构域(ubiquitin-binding CUE domain)则与细胞质定位有关,这与其已知的生物学功能是一致的。

预测突变(mutations)的影响:PUPS甚至可以用来预测致病突变对蛋白质定位的影响。研究人员测试了导致疾病的SDHD和ETHE1蛋白质的致病突变序列。对于SDHD,PUPS预测致病突变版本比野生型(wild-type)版本更倾向于定位到细胞核,这与序列分析中N端对线粒体定位预测性降低的发现一致。对于ETHE1,PUPS预测致病突变版本比野生型版本在细胞质中的比例更高,这与序列分析中致病序列对细胞质定位预测性更高的发现一致。

不止预测:PUPS打开的细胞研究新大门

PUPS的能力远不止于此。它开启了许多令人兴奋的研究方向:

“虚拟染色”(Virtual Staining):想象一下,只通过简单的细胞标志物染色图像,PUPS就能为你生成细胞内几乎任何蛋白质的预测定位图像!这就像给细胞做了“虚拟染色”,极大地突破了实验中一次只能标记少量蛋白质的限制。

大规模筛选和生物标志物发现:利用PUPS,研究人员可以大规模预测大量未知或变异蛋白质的定位,从而加速疾病生物标志物(biomarkers)的发现,或预测基因扰动(gene perturbation)或药物(drug)处理对蛋白质定位的影响。

探索蛋白质相互作用:蛋白质的共定位往往是蛋白质相互作用(protein-protein interactions)的基础。PUPS预测的蛋白质定位信息,可以帮助研究人员更好地理解细胞内的蛋白质互作网络。未来的模型还可以考虑直接整合蛋白质互作数据。

从细胞系到组织(tissue):虽然当前模型主要在细胞系数据上训练和验证,但将PUPS扩展到预测组织环境中的蛋白质亚细胞定位,将为理解更复杂的生物学系统提供重要视角。

蛋白质的亚细胞定位对生命活动至关重要,而我们现有的知识地图还有很多空白。PUPS作为一款结合蛋白质序列和细胞图像的新型AI模型,不仅能准确预测未知蛋白质在未知细胞系中的定位,还能揭示蛋白质定位在不同细胞系和单细胞层面的变异规律,甚至预测突变对定位的影响。这项研究不仅为绘制更全面的细胞内蛋白质“地图”提供了有力工具,也为探索蛋白质功能、疾病机制和药物靶点打开了新的研究视野。

参考文献

Zhang X, Tseo Y, Bai Y, Chen F, Uhler C. Prediction of protein subcellular localization in single cells. Nat Methods. 2025 May 13. doi: 10.1038/s41592-025-02696-1. Epub ahead of print. PMID: 40360932.

声明:本文仅用于分享,不代表平台立场,如涉及版权等问题,请尽快联系我们,我们第一时间更正,谢谢!

往期热文:

Cell

| 你的肠道菌株是“本地户口”还是“世界公民”?研究人员揭示地理与健康双重影响

Nature Biotechnology | 首张人体组织特异性蛋白质地图,精准解锁疾病基因新靶点!

Nature Medicine | Felzartamab如何从分子层面“驯服”肾移植排斥?

Nature | IBD百年“全球迁徙”,揭示肠道疾病演变四大阶段

Cell

| 破译m⁶A谜团:不再是单一“自毁”,mRNA的生命周期藏着tRNA的“救援”

Nature Medicine

| 终结房颤“剪不断理还乱”?LVA消融,不是所有患者都受益的“万金油”!

来源:生物探索一点号1

相关推荐