摘要:科学家们开发了一种名为 CANYA 的可解释 AI 工具,它可以破译蛋白质用来判断其是否形成团块的化学语言,而团块与阿尔茨海默病等疾病密切相关。CANYA 利用在酵母细胞中测试的超过 10 万个合成蛋白质片段的海量数据集,识别出驱动或阻止聚集的关键基序。
科学家们开发了一种名为 CANYA 的可解释 AI 工具,它可以破译蛋白质用来判断其是否形成团块的化学语言,而团块与阿尔茨海默病等疾病密切相关。CANYA 利用在酵母细胞中测试的超过 10 万个合成蛋白质片段的海量数据集,识别出驱动或阻止聚集的关键基序。
研究人员开发了一种人工智能系统,能够预测蛋白质是否以及为何形成粘性团块,这一过程与影响近 5 亿人的 50 多种人类疾病有关。
一种新的人工智能工具在解码决定蛋白质是否形成粘性团块(与阿尔茨海默病和大约五十种其他人类疾病相关的结构)的生化“语言”方面取得了重大进展。与传统的“黑箱”人工智能系统不同,这款名为 CANYA 的工具专为解释其预测而设计。它能够精确地揭示促进或抑制有害蛋白质聚集的化学模式。
这项突破性研究成果发表在《科学进展》杂志上,它得益于迄今为止收集的有关蛋白质聚集的最大数据集。这项研究揭示了蛋白质聚集背后的分子机制,而蛋白质聚集这一过程与全球超过 5 亿人的疾病有关。
蛋白质聚集,也称为淀粉样蛋白形成,会干扰正常的细胞功能。当蛋白质的某些区域变得有粘性时,就会发生这种情况,导致分子结合在一起形成致密的纤维结构,而这种结构通常对细胞有毒性。
虽然这项研究对加速神经退行性疾病的研究工作有一定的意义,但它更直接的影响将体现在生物技术领域。许多药物都是蛋白质,它们常常会因不必要的团聚而受到阻碍。
“蛋白质聚集是制药公司最头疼的问题,”该研究的共同通讯作者、加泰罗尼亚生物工程研究所 (IBEC) 组长贝内德塔·博洛涅西(Benedetta Bolognesi)博士说。
“如果治疗性蛋白质开始聚集,生产批次可能会失败,从而浪费时间和金钱。CANYA 可以帮助指导设计不易粘连的抗体和酶,并减少生产过程中昂贵的挫折,”她补充道。
蛋白质团块的形成依赖于一种我们难以理解的语言。蛋白质由二十种不同的氨基酸组成。与构成 DNA 语言的常见 A、C、G、T 字母不同,蛋白质的语言由二十种不同的字母组成,这些字母的不同组合形成了“单词”或“基序”。
长期以来,研究人员一直在努力破解哪些基序组合会导致蛋白质聚集,哪些组合能让蛋白质无误折叠。人工智能工具可以将氨基酸视为神秘语言的字母表,或许有助于识别导致蛋白质聚集的精确单词或基序,但一直以来,用于构建模型的蛋白质聚集数据质量和数量都十分有限,或者仅限于非常小的蛋白质片段。
使用荧光技术标记细胞内的淀粉样蛋白聚集体。图片来源:Benedetta Bolognesi/IBEC
这项研究通过开展大规模实验来应对这一挑战。作者从零开始构建了超过 10 万个完全随机的蛋白质片段,每个片段长 20 个氨基酸。研究人员在活酵母细胞中测试了每个合成片段的凝集能力。如果某个特定片段引发了凝集形成,酵母细胞就会以某种方式生长,研究人员可以通过测量这种生长方式来确定其因果关系。
大约每五个蛋白质片段中就有一个(21,936/100,000)会导致聚集,其余的则不会。虽然之前的研究可能只追踪了少量序列,但新的数据集捕获了更庞大的目录,涵盖了可能导致淀粉样蛋白聚集的不同蛋白质变体。
“我们创造了真正随机的蛋白质片段,其中包括许多自然界中未发现的版本。进化只探索了所有可能蛋白质序列的一小部分,而我们的方法帮助我们窥探更大的可能性,提供大量数据点,帮助我们理解更普遍的聚集行为规律,”该研究的第一作者、基因组调控中心 (CRG) 博士后研究员迈克·汤普森(Mike Thompson)博士解释道。
实验产生的海量数据被用于训练 CANYA。研究人员决定运用“可解释人工智能”的原则来创建它,使其决策过程对人类透明且易于理解。这意味着牺牲了一点预测能力,而“黑盒”人工智能的预测能力通常更高。尽管如此,CANYA 的准确率仍比现有模型高出约 15%。
具体来说,CANYA 是一个卷积注意力模型,一种借鉴了人工智能两个不同领域的混合工具。卷积模型类似于图像识别中使用的模型,通过扫描照片中的耳朵或鼻子等特征来识别人脸。但 CANYA 会浏览蛋白质链,寻找诸如图案或“单词”等有意义的特征。
语言翻译工具使用注意力机制 AI 模型来识别句子中的关键短语,然后确定最佳翻译。研究人员运用这项技术帮助 CANYA 找出在整个蛋白质结构中哪些基序最为重要。
这两种方法相结合,帮助 CANYA 近距离观察局部基序,同时发现它们在宏观层面的重要性。研究人员可以利用这些信息,不仅可以预测蛋白质链中哪些基序会促进、阻止或介于两者之间的聚集,还可以理解其中的原因。
例如,CANYA 研究表明,小块的疏水氨基酸更容易引发聚集,而某些基序如果位于蛋白质序列的起始位置而不是末端,对聚集的影响会更大。这些观察结果与研究人员先前在显微镜下观察到的已知淀粉样蛋白原纤维的发现一致。
但 CANYA 也发现了驱动蛋白质聚集的新规则。例如,某些蛋白质的组成部分,即所谓的带电氨基酸,通常被认为可以防止聚集。但事实证明,在其他特定组成部分的背景下,它们实际上可以促进聚集。
CANYA 目前的形式主要用“是”或“否”来解释蛋白质聚集,即它充当所谓的“分类器”。研究人员接下来希望改进该系统,使其能够预测和比较聚集速度,而不仅仅是聚集可能性。这有助于预测哪些蛋白质变体形成团块速度快,哪些蛋白质变体形成团块速度慢,这在神经退行性疾病中是一个至关重要的因素,因为淀粉样蛋白的形成时间与它是否发生同样重要。
“构建一个 20 个氨基酸长度的蛋白质片段的方法有 10^24 千万亿种。到目前为止,我们只用 10 万个片段就训练了一个人工智能。我们希望通过构建更多更大的片段来改进它。这只是第一步,但我们的工作表明,破译蛋白质聚集的语言是可能的。这对于我们理解人类疾病以及指导合成生物学工作都至关重要。” 博洛涅西博士总结道。
“这个项目很好地展现了如何将大规模数据生成与人工智能相结合来加速研究。它也是一种非常经济高效的数据生成方法,”ICREA 研究教授、本文共同通讯作者、巴塞罗那基因组调控中心(CRG)和惠康基金会桑格研究所组长本·莱纳(Ben Lehner)说道。
“利用DNA合成和测序,我们可以在一个试管中进行数十万次实验,生成训练AI模型所需的数据。我们正在将这种方法应用于解决生物学中的许多难题。我们的目标是让生物学变得可预测和可编程,”他补充道。
这项研究由西班牙加泰罗尼亚研究学院(ICREA)基因组调控中心(CRG)的Ben Lehner教授实验室与加泰罗尼亚生物工程研究所(IBEC)的贝内德塔·博洛涅西实验室共同合作完成。冷泉港实验室(CSHL)和惠康基金会桑格研究所的研究人员也参与了这项研究。该研究由西班牙储蓄银行(La Caixa)研究基金会、欧洲研究理事会和西班牙科学与创新部资助。
参考文献:“大规模实验量化使蛋白质聚集的深度学习成为可能”,作者:Mike Thompson、Mariano Martín、Trinidad Sanmartín Olmo、Chandana Rajesh、Peter K. Koo、Benedetta Bolognesi 和 Ben Lehner,2025年4月30日,《科学进展》。DOI:10.1126/sciadv.adt5111
来源:康嘉年華一点号