5万人，一千多种疾病，复旦团队破译最全人类健康与疾病蛋白质图谱

摘要：郁金泰这样回忆，这位42岁的医生是复旦大学附属华山医院神经内科教授，也是国家神经疾病医学中心（华山）认知障碍方向带头人。33岁时，他作为研究项目的牵头人，联合多位国际专家，历时五年制定了全球首个阿尔茨海默病循证预防国际指南。

图源：受访者供图

撰文 | 苏惟楚

编辑 | 李珊珊

● ● ●

“血液检测阿尔茨海默病”展开的宏大构想

最初的想法是从研究阿尔茨海默病开始的。

“大家都知道，阿尔茨海默病（痴呆的主要类型）发病之后，干预已经晚了。我们一直想，有没有可能像测血糖一样，抽个血就可以在早期检测阿尔茨海默。”

郁金泰这样回忆，这位42岁的医生是复旦大学附属华山医院神经内科教授，也是国家神经疾病医学中心（华山）认知障碍方向带头人。33岁时，他作为研究项目的牵头人，联合多位国际专家，历时五年制定了全球首个阿尔茨海默病循证预防国际指南。

今年2月，他带领团队和复旦大学类脑智能科学与技术研究院程炜研究员团队进行合作，发表了一项工作。他们采用大规模蛋白质组学数据和人工智能算法，对近1500种血浆蛋白质进行筛选分析，发现了11种可预测未来痴呆风险的血浆蛋白质，基于这些蛋白质的水平变化可提前15年预测痴呆发病风险。

这项工作被Nature（《自然》）杂志作为头条的新闻进行报道，指出这项大规模筛查研究的结果可能被用于开发血液检测方法，在症状出现之前诊断阿尔茨海默病等疾病。

郁金泰说，“当时也是比较震撼的，后续有一些公司联系我们，希望基于这项工作开发试剂盒。”

就在进行这一工作的过程中，郁金泰萌生了一个大胆的想法，“仅仅一种疾病，我们做了相关的工作就可能产生这么大的影响，如果我们把蛋白质图谱绘制出来，分析很多种疾病和蛋白的关系，对新标志物的识别与新靶点的研发肯定会帮助巨大。”

这是一个非常宏大的构想。在这个构想中，研究者试图构建迄今为止最全面的蛋白质组与人类健康与疾病的图谱，并结合人工智能算法构建疾病诊断预测模型，探究药物治疗新靶点。

历时近一年，这项工作发表在了11月22日的生命科学顶刊Cell（《细胞》），文章标题为Atlas of the plasma proteome in health and disease in 53,026 adults（《53,026名成人健康与疾病血浆蛋白质组图谱》）。[1]

在这项研究中，研究者绘制了一幅健康与疾病蛋白质图谱，涵盖了2,920种血浆蛋白质与406种既往患病、660种随访新发疾病以及986种健康相关表型，揭示了168,100个蛋白质-疾病关联和554,488个蛋白质-表型关联。

此外，研究者发现超过650种蛋白质与至少50种疾病存在联系，同时还发现了26个药物治疗新靶点，并建立了一个可开放访问的蛋白质组-表型组资源数据库Proteome-Phenome Atlas（）。这个数据库不仅有助于科学家们更好地理解疾病的生物学机制，还将加速疾病生物标志物、预测诊断模型和治疗靶点的有效开发。

可开放访问的蛋白质组-表型组资源数据库

最为重要的是，郁金泰告诉《知识分子》，他们试图建立一个新的研究范式。

“过去，我们希望通过基因组图谱来解析疾病，但今天我们发现，很多问题并没有之前预想地那样得到解决。要真正阐释生命，也许从蛋白质组中能够寻找到答案。”

诚如他所说，2003年，耗时13年的人类基因组图谱绘制成功，人们并未因此了解疾病的根源。生命科学进入了后基因组时代，人们的关注重点也从基因组的结构解析转向功能研究：基因变异如何导致疾病？基因与环境相互作用下如何影响生命的过程。

我们身处的这一时期，包括蛋白质组学在内的多组学逐渐成为了研究重点。

如果说基因是演奏生命交响乐的乐谱，那么蛋白质更像是演奏者，乐队会在不同的环境和需求下调整演奏方式。一些演奏者（关键蛋白质）可能会出现演奏错误（功能异常）、变音（错误折叠）、甚至停奏（丧失表达），导致整场交响乐不再协调。

基因组学中微小的差异，在蛋白质组学中可以被千倍甚至近万倍地放大。但时至今日，对于人类而言，蛋白质和疾病的关系仍有诸多未知之处。

郁金泰说，“这次我们采用了5万多名参与者的血浆高通量测序蛋白质组学数据，程炜老师团队把临床核心科学问题与人工智能大数据分析技术相结合，识别出了具有潜在诊断和预测价值的生物标志物，帮助我们揭示每一种疾病跟哪些蛋白相关，这些蛋白是否可以预测疾病的发展，这些蛋白是否可以作为药物的靶点等等，进行了全面的分析。”

此次研究的四位通讯作者：前排左二复旦大学附属华山医院神经内科教授郁金泰；左三为复旦类脑院院长冯建峰；前排右三为华山医院院长毛颖；右二为复旦大学类脑智能科学与技术研究院研究员程炜

共同第一作者：二排左三，复旦大学附属华山医院博士生邓悦婷；后排左三，复旦大学类脑智能科学与技术研究院青年研究员尤佳

研究的共同一作、复旦大学类脑智能科学与技术研究院青年研究员尤佳告诉《知识分子》，他们纳入了5万人的近3000种测序蛋白，分析了1000余种疾病和近1000种健康表型，然而，具体到每一步细节，都面临挑战。

与基因相比，蛋白质是一个更为复杂和多变的研究对象。共同一作、复旦大学附属华山医院博士生邓悦婷提到，与蛋白质相比，基因不会受到人们出生、患病的因素的影响，相对稳定。然而，蛋白受到很多因素影响，如果得到一个比较稳健的疾病或健康相关的蛋白，研究者需要对影响蛋白的变量进行充分质控，验证，纳入关联分析。

“这项工作可以理解为一个拼图的工作，我们找到了一块块拼图，把它们放在空白的地方，”尤佳说，当最后一块拼图被按下，完整的图谱出现在眼前，整个团队都为之雀跃欢呼。

一场新革命

科学界曾经认为，只要绘制出人类基因组图谱，就能了解疾病的根源，但事实并非如此。

基因组学为我们提供了生命的遗传蓝图，基因作为人类遗传信息的载体，是生命奥秘最原始、最根本的物质基础。但基因组序列本身并不能直接揭示生命的全部秘密。蛋白质是基因表达的产物，是细胞执行生长、发育、衰老和死亡等各种生命活动的基本单位。

生命体的生理、病理过程以及对外界刺激的响应，都依赖于蛋白质的表达、修饰和相互作用。要真正理解生命的运作机制，就必须深入研究蛋白质组。

据了解，这次研究揭示了许多新的蛋白质-疾病关联，其中相关性最强的主要集中在泌尿生殖系统疾病，如NBL1和COLEC12等蛋白和慢性肾病的关联。（见下图）

郁金泰介绍，“我们借鉴了基因组研究的范式，为疾病的预测和诊断提供了新的模型和蛋白指标。同时，我们采用孟德尔随机化（一种流行的遗传流行病学研究设计方法，它通过使用遗传变异作为工具变量，可以探究暴露和结局之间的因果关系，编者注）、成药性、安全性等分析，为疾病提供新的治疗靶点。但目前主要还是在理论层面，还需要进一步动物实验等验证。”

“我们对这项工作很有信心，因为不仅发现了新的靶点，还验证了一些已在临床应用的靶点，”郁金泰说。

尤佳进一步补充，这次的研究验证了一些既往研究报道的蛋白质与疾病的关联，例如：GDF15与多种疾病（如糖尿病、隐性脓毒症、贫血）的风险相关，WFDC2与流感和肺炎等呼吸系统疾病的风险相关。

在这些蛋白质中，GDF15被称作“明星蛋白”，包括Nature（《自然》）在内，多个顶刊刊发了对其的研究。此次复旦大学的研究发现GDF15与大多数疾病相关，包含205种现患疾病和397种新发疾病，“都是有非常强的关联，并且对这些疾病里的诊断预测的效能都比较理想。”

尤佳介绍，当前药企开展的以GDF15为全新治疗靶点的药物研究，适应症多集中于肥胖、肿瘤及相关恶病质、厌食症、心力衰竭等。但在成药性方面还面临巨大挑战，比如野生型GDF15的半衰期非常短，在小鼠和食蟹猴的体内为3小时；以及在几种类型的疾病状态下，均发现GDF15浓度增加，这或许意味着GDF15还具有耐药性，需要高剂量的药物治疗。

值得一提的是，此次研究发现了多个精神障碍相关的蛋白质，展示了蛋白质组学在精神疾病的预测、诊断和药物开发的巨大潜力。

以精神障碍的诊断为例，复旦大学类脑智能科学与技术研究院程炜教授介绍，“当前精神障碍比如焦虑症、抑郁症等，大都是基于量表进行的诊断，不像阿尔茨海默病这类，临床上以Aβ PET为金标准。所以很多精神障碍缺乏客观诊断手段，这个蛋白组图谱也涵盖了大多数精神疾病，发现大量精神疾病关联的蛋白，这对于精神疾病的发病预测和诊断都有重要价值。”

研究发现了多个精神障碍相关的蛋白质

更重要的是，这次的研究帮助我们重新审视了疾病的类别的分子亚型。

今年9月，Science《科学》杂志撰文指出当前高通量测序蛋白质的研究具有非凡潜力，尤其是蛋白质组学与人工智能的结合，将掀起一场革命，我们将重新理解疾病基础。[2]

在郁金泰看来，这也是这次他们的论文很顺利被Cell（《细胞》）杂志接收发表的原因之一，“现在推进精准医学有很多理念，比如通过人工智能结合蛋白质组学推动精准医学发展就是其一，我们的工作让这个理念落地了。”

郁金泰告诉《知识分子》，过去传统对疾病的划分主要靠相似的临床症状和表型特征，忽略了共同的分子病因。这次研究利用蛋白质组学特征对660种疾病进行聚类，能够根据其共享的生物学特性将这些疾病联系起来，从而重新审视疾病的类别和亚型。

例如，各种痴呆亚型被划分到同一疾病亚群，该亚群还包含精神、内分泌、心血管等系统疾病。基于此，这次研究工作进一步揭示了该亚群的特征性生物学功能，将生物学上相关的疾病联系在一起，有助于解释为何患者身上会同时出现看似不相关的症状，并进一步加深对疾病发病机制的理解和提高治疗的有效性。

以肿瘤治疗为例，郁金泰介绍，”当前对于肿瘤的精准治疗，我们会做一些基因的分型，就某种基因型，采用更有针对性的药物。蛋白和表型的关系更为密切，未来我们会通过观察某种蛋白是否存在异常，针对性的给予干预，效果会更好一些。”

“这就是精准医学的意义，精准预测、精准诊断、精准治疗。”

问题是跨越学科边界的钥匙

贯穿整个研究的，是两个原本来自不同背景的团队展现出的高度融合与合作。这也是郁金泰和程炜认为，本项研究进展快速的原因之一。

程炜与郁金泰的相识始于2020年9月。程炜主要关注生物医学大数据统计方法及在神经精神疾病中的应用研究，他回忆，“我们关注到郁老师有一些很好的工作，跟我们的兴趣点也很相近，我们聊得很好，于是成立了这样一个医工交叉的课题组。”

“我们不是某个学科的学生，而是问题的学生，问题可能跨越任何主题或学科的边界”，这是20世纪最伟大的哲学家之一Karl Popper（卡尔·波普尔）的一句话，作为联合团队成员，尤佳很喜欢这句话。而他也见证着这场合作，双方最大限度发掘了各自优势，跨越了原本单一学科的藩篱。

程炜团队在算法和算力方面具有极大优势，软硬件都提供了很大的支持。以本次的工作为例，蛋白在个体间受年龄、性别、种族等多重因素的复杂调控，且蛋白间也有相互作用。这意味着研究团队需要从海量且错综复杂的数据中提炼出对人类健康与疾病至关重要的蛋白信息，就需要程炜团队可靠的大数据分析技术方法。

而数据分析所得结论在临床上的验证与应用，其可靠性、解释力乃至成药靶点的潜力评估，这些问题又需要郁金泰教授临床团队的深入验证与解读。

回顾早期的合作时，郁金泰早前接受采访时曾介绍，为了避免不同背景带来的“语言”差异，联合团队引入了统一的数据管理和分析平台，确保数据的标准化和一致性。“在一次跨学科研讨会上，华山医院的同学提供了一些关于样本特征和病程进展的数据，对蛋白质组学分析具有重要参考价值。类脑研究院的同学则在此基础上开发了一套数据转换和整合工具，将临床数据与蛋白质组学数据进行匹配和关联分析。”