摘要:在漆黑的夜晚,蝙蝠利用声波导航觅食;在深邃的海洋,鲸发出超声波追踪猎物。这两种天差地别的动物,竟然拥有同样的“超能力”——回声定位。生物学上,这种相似性叫做 “趋同进化”:互不相关的物种,为了适应相似的环境,比如黑暗,独立演化出了相似的功能。
在漆黑的夜晚,蝙蝠利用声波导航觅食;在深邃的海洋,鲸发出超声波追踪猎物。这两种天差地别的动物,竟然拥有同样的“超能力”——回声定位。生物学上,这种相似性叫做 “趋同进化”:互不相关的物种,为了适应相似的环境,比如黑暗,独立演化出了相似的功能。
长期以来,科学家们相信,这种宏观功能的趋同,其根源必然深植于微观的分子世界——蛋白质序列的趋同演化。
2025年9月,题为Language models reveal a complex sequence basis for adaptive convergent evolution of protein functions(《语言模型揭示蛋白质功能适应性趋同进化的复杂序列基础》)的论文,发表于PNAS(美国科学院院刊),中国科学院动物研究所博士研究生曹振楸为该论文第一作者,邹征廷研究员为通讯作者,微软公司张宏久博士参与研究。这项研究巧妙地将前沿的人工智能技术——蛋白质语言模型——应用于演化生物学领域,揭示了生命在分子层面实现“英雄所见略同”的机制。
蛋白质是生命功能的主要执行者,它们由氨基酸像珍珠一样串成长链。传统的思路认为,如果两个物种的某个同源蛋白质,在同一个氨基酸位点发生了相同的“突变”,那么这个“巧合”很可能就是功能趋同的分子基础。例如,之前的研究在蝙蝠和鲸鱼的Prestin蛋白(一种与听力密切相关的蛋白)上发现了相同的位点变化。
传统方法的盲区:
当“找错别字”遇到“整体风格”
然而,这种“找错别字”式的传统方法存在一个巨大的盲区。
蛋白质的功能,并非仅仅由单个氨基酸决定,更像是由整条氨基酸链折叠成的复杂三维结构的“整体风格”所决定。 这个“整体风格”包括其三维形状、表面的物理化学性质(哪里亲水、哪里疏水、带电情况等),即“高阶特征”。
这就好比建造拱桥:你可以用石头、砖块或混凝土等完全不同的材料,但只要遵循相似的力学原理和结构设计,最终都能建成承载重量的拱桥。如果只盯着材料本身,而忽略了结构设计,就会错过真正的共性。
血红蛋白就是这样殊途同归。有颌类的血红蛋白负责在血液中运输氧气,而七鳃鳗等无颌类的血红蛋白,从序列上看,其实更接近我们的细胞球蛋白,但却“兼职”承担起了和血红蛋白相似的运氧功能。它们的氨基酸序列差异很大,但整体结构却允许它们实现相似的功能。
毒素蛋白也存在这样的独立发明。北美短尾鼩和墨西哥毒蜥,它们的毒液中都含有一种功能相似的毒素蛋白。但分析其序列发现,它们是通过在不同位置插入不同的氨基酸片段,最终“塑造”出了催化结构域相似的形状和性质,从而独立“发明”了毒性。
北短尾鼩和墨西哥毒蜥
这些案例说明,即使蛋白质的氨基酸序列看起来很不同,只要其高阶特征相似,就能实现相似的功能,而传统的“找错别字”方法,对这类“整体风格”的趋同束手无策。
超级侦探登场:蛋白质语言模型
如何捕捉这种看不见摸不着的“整体风格”趋同呢?科学家们找来了一位强大的AI助手——蛋白质语言模型。
蛋白质语言模型
这个概念源于自然语言处理,这些AI模型通过阅读海量文本,学会了理解单词的上下文和语义。蛋白质语言模型也在“阅读”了海量的、来自各种生物的蛋白质序列数据库后,学会了理解每个氨基酸在序列“上下文”中的意义。
更重要的是,它能将任何一个蛋白质序列转换成一个由数字组成的 “嵌入向量” 。你可以把这个向量想象成蛋白质独一无二的“数字指纹”或“全息档案”,其中高度浓缩了该蛋白质的高阶特征信息,如潜在的结构、理化性质等。
ACEP:给进化论装上“AI眼镜”
基于蛋白质语言模型的这一超凡能力,研究团队开发了一套名为 ACEP(通过蛋白质嵌入检测适应性趋同) 的分析流程。它就像一个精密的筛子,专门在全基因组中搜寻那些存在“隐藏”趋同信号的蛋白质。
ACEP的侦探工作分为三步:
计算真实世界的“亲近度”: 对于某个蛋白质,计算两个感兴趣的功能趋同类群(如回声定位蝙蝠和齿鲸)所有物种的“蛋白质指纹”之间的平均距离。距离越近,说明高阶特征越相似。
模拟“平行宇宙”作为对比基准: 利用进化模型,模拟这个蛋白质在“中性进化”(即没有特殊环境压力,仅随机变异)情况下,可能产生的上百套不同的演化路径。对于每一套模拟序列,同样计算两个类群间的“蛋白质指纹”距离。这构成了一个“随机巧合”的背景分布。
进行显著性检验: 将真实的“亲近度”(d_real)与模拟产生的背景分布进行比较。如果 d_real 显著小于绝大多数(如99%)的模拟距离,就证明:这种高阶特征的相似性极不可能是随机发生的,而是自然选择驱动的适应性趋同演化的结果。
ACEP的惊人发现
在经典案例中成功验证
ACEP首先在已知的趋同案例中证明了自己。例如,在回声定位哺乳动物的Prestin蛋白上,ACEP给出了极其显著的信号,这与传统认知一致。在具有景天酸代谢(CAM,一种适应干旱的光合作用方式)的植物中,ACEP也成功检测到了关键酶蛋白的高阶特征趋同。
全基因组筛查发现新大陆
更令人兴奋的是,当研究团队将ACEP应用于整个哺乳动物基因组,筛查所有在回声定位蝙蝠和齿鲸中都存在的蛋白质时,发现了一个“富矿”。在超过1.1万个蛋白质中,ACEP识别出756个具有显著趋同信号的候选基因。
对这些基因进行功能分析,“感官感知” 功能类别被显著富集。这其中不仅包含了Prestin等已知的“明星基因”,还发现了一批新的候选基因。许多新基因已被其他研究证明与听觉功能或听力损失相关。这强有力地表明,回声定位这项复杂“超能力”的演化,很可能与多个功能蛋白在高阶特征上的“殊途同归”有关。
ACEP代码和模型权重已在HuggingFace平台开源:
邹征廷研究组目前以计算分子演化分析和相关人工智能应用为主要研究方向,有博士后等工作机会,欢迎咨询。
编辑:吴欧
审核:邹征廷
论文信息
发布期刊PNAS
发布时间2025年9月23日
论文标题 Language models reveal a complex sequence basis for adaptive convergent evolution of protein functions
(DOI:https://doi.org/10.1073/pnas.241825412)
来源:我是科学家iScientist