科学家提出神经元识别算法，揭示大模型“语言无界”神经基础

摘要：近年来，陈家骏也在 AI 领域有所建树。近日，陈家骏团队联合微软亚洲研究院团队提出一种新型细粒度神经元识别算法，该算法能够有效识别跨语言共享的语言相关神经元。具体来说，它分别可以检测语言神经元和语言无关神经元。

“这学期教我们 C++ 的陈家骏老师编程水平过硬，教学能力也是真的好，我们用的教材都是他编的。”在某社交媒体上，一位网友这样评价南京大学教授陈家骏 [1]。

图 | 陈家骏（来源：https://cs.nju.edu.cn/chenjiajun/）

近年来，陈家骏也在 AI 领域有所建树。近日，陈家骏团队联合微软亚洲研究院团队提出一种新型细粒度神经元识别算法，该算法能够有效识别跨语言共享的语言相关神经元。具体来说，它分别可以检测语言神经元和语言无关神经元。

此外，基于不同类型神经元的分布特征，研究团队将大模型的多语言推理内部过程分为四个部分，它们分别是：多语言理解、共享语义空间推理、多语言输出空间变换和词汇空间输出。

同时，研究团队既分析了对齐前后的模型，也分析了自发多语言对齐现象。本次研究表明，大模型的不同部分对于不同神经元表现出不同的依赖性，并且多语言对齐能够显著增强相关层中的相应神经元的激活。

另外，研究团队还分析了大模型的自发多语言对齐现象，为理解语言无关神经元和跨语言共享的语言相关神经元所扮演的角色提供了更多见解。进一步地，他们还针对英语的独特性及神经元分布特征提供了实证观察结果，有助于更深入地理解大模型的多语言对齐和多语言能力。

实验设置：两款模型、两个数学基准、10 种语言

据介绍，研究团队发现识别语言特定神经元的已有方法存在如下一个关键局限：有些神经元虽然在多种语言中被共享，但是并非完全与语言无关。在现有的框架之下，这些神经元被错误地归类为语言特异性神经元或语言无关性神经元。

因此，本次研究旨在探索能否从语言神经元的角度更好地分析和理解多语言对齐是如何增强大模型多语言能力的？为此，研究团队从语言神经元的角度针对大模型的多语言对齐进行了全面研究，并将 MAPO（Multilingual-Alignment-as-Preference Optimization）作为一种代表性多语言对齐算法加以应用。

针对现有语言特异性神经元识别方法的局限性，本次研究将语言神经元定义为语言特异性神经元与语言相关神经元的集合（而非语言无关神经元）。同时，他们将语言相关神经元、语言特定神经元和语言无关神经元加以区分，以便进行更精确的分析。

图 | 相关论文（来源：arXiv）

通过参考前人的研究，研究团队针对数学推理任务和不同语言进行了实验和分析。

在模型上，他们使用了如下两种模型——MistralMathOctopus-7B 和 MetaMathOctopus7B。其中，MistralMathOctopus 是通过使用 MGSM8KInstruct 针对 MetaMath Mistral 进行微调而获得的，MetaMathOctopus 是通过使用 MGSM8KInstruct 针对 MetaMath 进行微调而获得的。考虑到计算资源有限以及可重复性，研究团队直接使用公开发布的基础模型，同时实验分析主要基于 MistralMathOctopus。

在数据集上，研究团队在两个具有代表性的数学推理基准 MGSM 和 MSVAMP 上进行了实验。其中，MGSM 是在多语言数学推理评估中已得到广泛使用的基准；MSVAMP 是与 MGSM 相对的一个域外测试集，主要用于评估模型的鲁棒性和泛化能力。

在语言上，研究团队选择了以下 10 种不同的语言进行分析。作为一种枢纽语言，英语被用作本次研究对齐目标。同时，他们还选择了汉语、俄语、德语、法语、西班牙语、日语、斯瓦希里语、泰语和孟加拉语作为 9 种具有代表性的非英语语言。

在实现方式上，由于计算资源有限因此本次研究聚焦于 MAPO 中最有效的 DPO（Direct Preference Optimization）变体。在算术推理基准 NumGLUE 中，研究团队选择了三个任务，并将问题翻译成与 MGSM 一致的语言，以便能够创建多语言种子数据集。

为了构建偏好对，他们使用相应的基础模型针对响应进行采样，并使用 NLLB-200-distilled-600M 作为翻译模型来获得对齐得分。通过此，对于每种模型和每种目标语言（英语除外），研究团队获得了 10000 个偏好对。

在神经元选择阶段，研究团队针对 MGSM 和 MSVAMP 数据集的响应进行强制解码，以便获得每种语言的神经元激活概率。基于开发集的实证结果，研究团队将平衡系数 λ 设为 0.04，阈值 τ 设为 0.5。

停用语言神经元会产生更明显的效果

基于本次提出的神经元识别算法，研究团队识别了模型中的语言特异性神经元、语言相关神经元和语言无关神经元。为了进一步验证上述算法的有效性，他们参照前人的方法，通过停用所识别出的跨语言语言神经元来考察大模型困惑度的变化。然后，在基础模型和对齐模型上进行实验。通过此，他们展示了语言特异性神经元和语言神经元的结果。

研究团队表示，无论是停用语言特异性神经元还是停用所有语言神经元，结果都始终呈现出相同的模式，即每行的对角元素均表现出最高值。值得注意的是，与仅停用语言特异性神经元相比，停用语言神经元会产生更明显的效果。

基于这些观察结果，研究团队提出三个发现：

首先，本次算法能够有效识别语言特异性神经元和语言相关神经元；其次，对于特定语言而言，除了语言特异性神经元之外，还存在大量跨语言共享的相关神经元来共同支撑其性能表现；再次，停用某一语言的所有语言相关神经元不会针对模型在其他语言上的性能产生显著影响。

这不仅证实了利用本次方法所识别的语言神经元的有效性，还进一步揭示了语言神经元的核心特性。

大模型多语言推理内部过程应被划为四个部分

基于所识别的神经元，研究团队针对大模型中所有层进行了逐层功能分析。通过分析不同类型的神经元分布情况，其认为可以将大模型的多语言推理内部过程划分为四个部分，而非此前一些研究中所提出的三阶段划分法。

这四个部分的具体介绍如下：

第一部分是多语言理解，即在初始层之中，语言神经元的数量达到峰值，而语言无关神经元的数量相对较少。在这一阶段，模型会将多语言输入映射到统一的语义空间中。第二部分是共享语义空间推理，即在中间层之中，模型在不同语言的共享语义空间内进行推理。在这个阶段，基本不存在语言神经元，而语言无关神经元则占据主导地位。第三部分是多语言输出空间转换，在这个阶段模型会将特征转移到多语言输出空间，以便为生成最终输出做准备。这时，语言神经元的数量再次达到峰值，而语言无关神经元的数量则会降至最低点。第四部分是词汇空间输出，这时模型会将不同语言的向量映射到共享的词汇空间中以便生成输出。这时，语言相关神经元和语言无关神经元的数量都会出现急剧增加，而语言特异性神经元的数量则少于前几部分。

同时，不同类型神经元的分布与已有研究的结论保持一致，即神经元的数量会随着大模型的不同推理阶段而发生相应的变化。

与已训练语言共享的新语言相关神经元，有助于提升模型表现

此前，曾有研究者揭示并探讨了自发性多语言对齐现象。本次研究团队则进一步分析了这一现象，其发现当采用多语言对齐策略的时候，也会出现自发的多语言对齐现象。

除了用于对齐的语言之外，大模型在其他未对齐的语言中也表现出显著的性能提升。为了理解多语言对齐被推广到其他语言的背后机制，研究团队分析了多语言对齐前后不同类型神经元的变化，并以“中文/德文→英文”为例，在下表中展示了平均结果。

对于训练过的语言来说，语言特异性神经元的数量会出现减少，而语言相关神经元的数量则会出现增加。这表明，经过对齐的语言倾向于利用更多与其他语言共享的语言相关神经元，而不是专属的语言特异性神经元。此外，当将这一分析扩展到训练语言以外的语言，研究团队观察到了类似的现象。

这表明，多语言对齐机制能够促进语言相关神经元的协同利用，同时能够降低模型对于语言特异性神经元的依赖，而且这一现象在模型训练语言以及未训练过的其他语言中均得到了验证。基于此，研究团队推测那些与已训练语言共享的新语言相关神经元，有助于提升模型在其他未见语言上的表现。

停用英语语言神经元，对模型在英语中的性能几无影响

由于目前的大模型主要是基于英语数据进行预训练的，因此英语通常被认为在大模型中起着特殊作用。实验中，研究团队观察到与其他非英语语言相比，英语表现出明显不同的特征。

但是，基于已被识别出来的神经元，他们发现停用英语的语言神经元的这一做法，对于模型在英语中的性能影响可以忽略不计，这与在其他语言中观察到的行为完全不同。

基于这一发现，研究团队在 MistralMathOctopus 基础模型上量化了英语和非英语语言的语言神经元数量。

分析表明，无论是语言特异性神经元还是语言相关神经元，英语的神经元都比其他语言少得多。研究团队推测，这是由于英语拥有许多与语言相关的神经元。并且，由于一直以来英语充当着枢纽语言，因此这些语言相关神经元很可能能和几乎所有其他语言共享，从而让它们与语言无关的神经元产生了混淆。

而在神经元分布的稳定性上，研究团队计算了两种设置之下的神经元重叠率。结果发现，尽管一些语言神经元的确切位置可能在不同环境中有所不同，但是大多数语言神经元的位置分布保持稳定。这也表明，在固定超参数下识别的语言神经元具有良好的可靠性和泛化能力。

整体来看，本次研究从语言神经元的角度研究了多语言对齐，并提出一种新型语言神经元识别算法，该算法能够检测大模型中的语言特异性神经元、语言相关神经元和语言无关神经元。通过失活消融实验，研究团队证实了所识别的神经元的有效性。

此外，他们通过分析不同类型神经元的作用，探究了多语言对齐机制。根据其分布特征，他们将大模型的内部处理过程分为四个功能部分。同时，本次研究表明多语言对齐能够提升模型在不同功能部分中对于相应类型神经元的利用效率。另外，研究团队发现，对齐过程会促使模型更多地依赖跨语言共享的语言相关神经元，而非依赖特定语言的神经元。

总的来说，本次研究基于不同类型的神经元进行了研究，为更好地理解大模型的多语言对齐和多语言能力提供了新的见解。

参考资料：

1.https://www.zhihu.com/question/533844208/answer/3224607031

2.https://book.douban.com/subject/1180584/

3.https://arxiv.org/pdf/2505.21505

运营/排版：何晨龙

来源：DeepTech深科技

标签：模型神经元无界算法语言

本文地址：http://news.43b.com.cn/a/649008.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!