AI 破解与阿尔茨海默病相关的粘性蛋白质的秘密语言

B站影视 日本电影 2025-06-06 19:30 2

摘要:科学家们开发了一种名为 CANYA 的可解释的 AI 工具,可以破译蛋白质用来确定它们是否形成团块的化学语言,这些团块与阿尔茨海默氏症等疾病有关。使用在酵母细胞中测试的超过 100,000 个合成蛋白质片段的庞大数据点,CANYA 确定了驱动或阻止聚集的关键基

科学家们开发了一种名为 CANYA 的可解释的 AI 工具,可以破译蛋白质用来确定它们是否形成团块的化学语言,这些团块与阿尔茨海默氏症等疾病有关。使用在酵母细胞中测试的超过 100,000 个合成蛋白质片段的庞大数据点,CANYA 确定了驱动或阻止聚集的关键基序。

研究人员开发了一种人工智能系统,能够预测蛋白质是否以及为什么会形成粘性团块,这一过程与影响近五亿人的 50 多种人类疾病有关。

一种新的人工智能工具在解码确定蛋白质是否形成粘性团块的生化“语言”方面取得了重大进展,这种结构与阿尔茨海默病和大约 50 种其他人类疾病有关。与传统的“黑盒”人工智能系统不同,这个名为 CANYA 的工具是专门为解释其预测而设计的。它突出了促进或抑制有害蛋白质聚集的精确化学模式。

这一突破在《科学进展》杂志上进行了详细介绍,是由有史以来最大的蛋白质聚集数据集实现的。该研究揭示了蛋白质聚集背后的分子机制,这一过程与影响全球超过 5 亿人的疾病有关。

蛋白质聚集,也称为淀粉样蛋白形成,会干扰正常的细胞功能。当蛋白质的某些区域变得粘附时,就会发生这种情况,导致分子结合在一起形成致密的纤维结构,这些结构通常对细胞有毒。

虽然这项研究对加速神经退行性疾病的研究工作有一些影响,但它更直接的影响将是生物技术。许多药物是蛋白质,它们经常受到不需要的聚集的阻碍。

“蛋白质聚集是制药公司最头疼的问题,”该研究的共同通讯作者、加泰罗尼亚生物工程研究所 (IBEC) 小组负责人 Benedetta Bolognesi 博士说。

“如果治疗性蛋白质开始聚集,生产批次可能会失败,从而浪费时间和金钱。CANYA 可以帮助指导设计不太可能粘在一起的抗体和酶,并减少过程中昂贵的挫折,”她补充道。

解码蛋白质语言

蛋白质团块是使用一种难以理解的语言形成的。蛋白质由 20 种不同类型的氨基酸组成。蛋白质的语言不是构成 DNA 语言的通常的 A、C、G、T 字母,而是有 20 个不同的字母,它们的不同组合形成“单词”或“图案”。

长期以来,研究人员一直在试图破译哪些基序组合会导致结块,哪些基序组合使蛋白质能够无误折叠。将氨基酸视为神秘语言的字母表的人工智能工具可以帮助识别负责的准确单词或基序,但历史上为模型提供所需的蛋白质聚集数据的质量和数量很少或仅限于非常小的蛋白质片段。

使用荧光技术标记的细胞内的淀粉样蛋白聚集。图片来源:Benedetta Bolognesi/IBEC

该研究通过进行大规模实验解决了这一挑战。该研究的作者从头开始创建了超过 100,000 个完全随机的蛋白质片段,每个片段长 20 个氨基酸。在活酵母细胞中测试了每个合成片段结块的能力。如果特定片段触发了团块形成,酵母细胞将以某种方式生长,研究人员可以测量这种方式以确定因果关系。

大约五分之一的蛋白质片段 (21,936/100,000) 导致结块,而其余的则没有。虽然以前的研究可能追踪了少数序列,但新的数据集捕获了可能导致淀粉样蛋白聚集的不同蛋白质变体的更大目录。

“我们创造了真正随机的蛋白质片段,包括自然界中没有的许多版本。进化论只探索了所有可能的蛋白质序列的一小部分,而我们的方法帮助我们窥视了一个更大的可能性星系,提供了大量数据点来帮助理解更普遍的聚集行为规律,”该研究的第一作者、基因组调控中心 (CRG) 的博士后研究员 Mike Thompson 博士解释说。

实验产生的大量数据被用来训练 CANYA。研究人员决定使用“可解释的 AI”原则来创建它,使其决策过程对人类透明且易于理解。这意味着牺牲一点它的预测能力,而“黑盒”AI 的预测能力通常更高。尽管如此,CANYA 被证明比现有模型准确 15% 左右。

具体来说,CANYA 是一种卷积注意力模型,一种借鉴了 AI 两个不同角落的混合工具。卷积模型,如图像识别中使用的模型,扫描照片中的耳朵或鼻子等特征来识别人脸,但在这种情况下,CANYA 会浏览蛋白质链以找到有意义的特征,如图案或 “单词”。

语言翻译工具使用注意力 AI 模型来识别句子中的关键短语,然后再决定最佳翻译。研究人员采用了这项技术来帮助 CANYA 找出哪些基序在整个蛋白质的宏大计划中最重要。

这两种方法相结合,帮助 CANYA 近距离观察当地主题,同时发现它们更重要的重要性。研究人员不仅可以使用这些信息来预测蛋白质链中的哪些基序会促进聚集、阻断或介于两者之间,还可以了解原因。

例如,CANYA 表明,小口袋的防水氨基酸更有可能引发结块,而如果一些基序位于蛋白质序列的开头附近而不是末端,则它们对结块的影响更大。这些观察结果与研究人员之前在显微镜下看到的已知淀粉样蛋白原纤维的发现一致。

但 CANYA 还发现了推动蛋白质聚集的新规则。例如,蛋白质的某些组成部分,即所谓的带电氨基酸,通常被认为可以防止结块。但事实证明,在其他特定构建块的上下文中,它们实际上可以促进聚集。

在目前的形式中,CANYA 主要用是或否的术语来解释蛋白质聚集,即它作为一个所谓的“分类器”。研究人员接下来希望改进该系统,以便它可以预测和比较聚集速度,而不仅仅是聚集的可能性。这可以帮助预测哪些蛋白质变体形成团块的速度较快,哪些变体形成团块的速度较慢,这是神经退行性疾病中的一个重要因素,其中淀粉样蛋白形成的时间与淀粉样蛋白形成的时间与它发生的事实一样重要。

“有 1024 种五亿方法可以创建长达 20 个氨基酸的蛋白质片段。到目前为止,我们已经训练了一个只有 100,000 个片段的 AI。我们希望通过制造更多更大的片段来改进它。这只是第一步,但我们的工作表明,可以破译蛋白质聚集的语言。这对于我们了解人类疾病非常重要,而且对于指导合成生物学工作也非常重要,”Bolognesi 博士总结道。

“这个项目是一个很好的例子,说明将大规模数据生成与 AI 相结合如何加速研究。这也是一种非常经济高效的数据生成方法,”ICREA 研究教授 Ben Lehner 说,他是基因组调控中心 (CRG) 和惠康桑格研究所的共同通讯作者兼小组负责人。

“使用 DNA 合成和测序,我们可以在一根试管中进行数十万次实验,生成训练 AI 模型所需的数据。这是我们应用于生物学中许多难题的一种方法。目标是使生物学可预测和可编程,”他补充道。

参考资料:Mike Thompson、Mariano Martín、Trinidad Sanmartín Olmo、Chandana Rajesh、Peter K. Koo、Benedetta Bolognesi 和 Ben Lehner 于 2025 年 4 月 30 日发表的“大规模实验量化允许蛋白质聚集的可解释深度学习”,科学进展。
DOI: 10.1126/sciadv.adt5111

该研究是基因组调控中心 (CRG) 的 ICREA 研究教授 Ben Lehner 的实验室和加泰罗尼亚生物工程研究所 (IBEC) 的 Benedetta Bolognesi 实验室的联合合作成果。冷泉港实验室 (CSHL) 和惠康桑格研究所的研究人员也合作参与了这项研究。它由“La Caixa”研究基金会、欧洲研究委员会和西班牙科学与创新部资助。

来源:人工智能学家

相关推荐