摘要:大型语言模型(LLMs)是为了预测随后的话语并适应任务而进行优化的,使用上下文嵌入可以使其处理自然语言接近于人类水平。这项研究显示,人类大脑中的神经活动与大型语言模型(LLMs)处理日常对话时的语音和语言内部上下文嵌入呈线性对齐。
-Deciphering language processing in the human brain through LLM representations
Mariano Schain,软件工程师,Ariel Goldstein,访问研究员,Google研究院
2025年3月21日
目录
1前言
2类似的基于嵌入的语言表示
3LLMS与人脑之间的共同目标和几何形状
4LLM和人类大脑处理自然语言的差异
5总结和未来方向
1 前言大型语言模型(LLMs)是为了预测随后的话语并适应任务而进行优化的,使用上下文嵌入可以使其处理自然语言接近于人类水平。这项研究显示,人类大脑中的神经活动与大型语言模型(LLMs)处理日常对话时的语音和语言内部上下文嵌入呈线性对齐。
人类大脑在日常对话中如何处理自然语言?从理论上讲,大型语言模型(LLMs)和人类语言的符号心理语言模型提供了一个基本不同的计算框架来编码自然语言。大型语言模型不依赖于符号词类或句法规则。相反,它们利用简单的自监督目标,比如通过强化学习增强的下一个单词预测和生成。这使它们能够生成来自真实文本语料库的特定上下文的语言输出,有效地将自然语音(声音)和语言(单词)的统计结构编码到一个多维嵌入空间中。
受到LLM 成功的启发,Google Research 团队与普林斯顿大学、纽约大学和HUJI 合作,试图探索人脑和深度语言模型处理自然语言以实现其卓越能力的异同。通过过去五年的一系列研究,我们探索了特定深度学习模型的内部表示(嵌入)与自然自由对话期间人脑神经活动之间的相似性,展示了深度语言模型的嵌入作为理解人脑如何处理语言的框架的力量。我们证明,深度语言模型生成的词级内部嵌入与人脑中与语音理解和产生相关的已建立大脑区域中的神经活动模式一致。
我们最近的研究发表在《自然人类行为》杂志上,调查了基于Transformer的语音转文本模型内部表示与人类大脑在真实对话中的神经处理序列之间的对齐。在这项研究中,我们分析了在自发对话期间使用颅内电极记录的神经活动。我们将神经活动模式与Whisper语音转文本模型生成的内部表示(嵌入)进行比较,重点关注模型的语言特征如何与大脑的自然语音处理相一致。
在语音理解过程中听到的每个词或在语音产生过程中发言的每个词,都从语音到文本模型中提取了两种嵌入— 模型的语音编码器中的语音嵌入和模型的解码器中的基于单词的语言嵌入。估计了一个线性变换,以预测每次对话中每个单词的大脑神经信号从语音到文本嵌入中。研究揭示了人类大脑语音区域的神经活动与模型的语音嵌入之间以及大脑语言区域的神经活动与模型的语言嵌入之间的显著一致性。以下动画演示了大脑对主体语言理解的神经响应序列:
大脑在听到句子“你好吗?”时对主体语言理解的神经反应顺序。
当听众处理传入的口头语言时,我们观察到一系列神经反应:最初,随着每个词的表达,语音嵌入使我们能够预测在上颞回(STG)沿着言语区域的皮层活动。几百毫秒后,当听众开始解码单词的含义时,语言嵌入预测到布洛卡区(位于下额回;IFG)的皮层活动。
参与者的产出显示了一个不同(相反的!)神经响应顺序:
对于“感觉棒极了”这一话题,神经反应序列随着受试者语言表达的变化。
观察这种对齐更仔细地,大约在发音单词之前的500毫秒(当主体准备发音下一个单词时),语言嵌入(蓝色表示)预测了Broca区的皮层活动。几百毫秒后(仍然在单词开始之前),语音嵌入(红色表示)预测了运动皮层(MC)中的神经活动,因为讲话者计划发音序列。最后,当说话者发音单词时,语音嵌入预测听众在STG听觉区域中的神经活动,因为听众听自己的声音。这种动态反映了神经处理的顺序,从语言区域计划要说的内容开始,然后在运动区域中如何发音,最后在感知语音区域监视所说的内容。
整个大脑分析的定量结果如下图所示:对于每个单词,考虑到其语音嵌入(红色)和语言嵌入(蓝色),我们预测了从单词出现前2秒到后2秒范围内的每个电极的神经反应(在图中x轴值为0)。这是在语音产生时(左侧面板)和语音理解时(右侧面板)完成的。相关图表展示了我们对各个大脑区域中电极滞后功能中的所有单词的神经活动预测准确度(相关性)。
在产生和理解时将语音和语言嵌入与人脑信号拟合。
在言语表达过程中,明显可见,在颞额叶内语言嵌入(蓝色)在言语嵌入(红色)在感觉运动区达到顶峰之前达到顶峰,随后在颞叶中出现了言语编码的高峰。相比之下,在言语理解过程中,高峰编码转移到词语开始之后,红色的言语嵌入在颞叶中明显先于颞额叶中的语言编码(蓝色)达到顶峰。
总的来说,我们的研究结果表明,语音到文本模型的嵌入提供了一个统一的框架,用于理解自然对话期间语言处理的神经基础。令人惊讶的是,尽管Whisper仅用于语音识别而没有考虑大脑如何处理语言,但我们发现其内部表示与自然对话期间的神经活动相吻合。这种一致性并非必然发生,负面的结果将表明嵌入和神经信号之间几乎没有对应关系,这表明模型的表示未捕捉到大脑的语言处理机制。
神经处理中对齐LLMs和人脑间特别引人注目的概念是神经处理中的“软层次”概念。尽管大脑中涉及语言的区域,如IFG,倾向于优先处理单词级别的语义和句法信息- 如与语言嵌入(蓝色)对齐更强的现象所示- 但它们也捕捉到较低级别的听觉特征,这是从与语音嵌入(红色)较低但显著的对齐中显而易见的。相反,像STG这样的低阶语音区域倾向于优先处理声学和音素处理- 如与语音嵌入(红色)对齐更强的现象所示- 但它们也捕捉到单词级别的信息,从与语言嵌入(蓝色)较低但显著的对齐中可见。
LLMs接受训练,通过使用一个简单的目标来处理自然语言:预测序列中的下一个词。在发表在《自然神经科学》期刊上的一篇论文中,我们发现,类似于LLMs,听众大脑的语言区域试图在单词被说出之前预测下一个词。此外,类似于LLMs,听众在单词出现之前对自己的预测的信心会影响单词被表达后的惊讶程度(预测错误)。这些发现为自发性LLMs和人脑共享的基本计算原则提供了令人信服的新证据,包括预发生预测、事后发生惊讶和基于嵌入的上下文表示。在另一篇发表在《自然通讯》期刊上的论文中,团队还发现,自然语言中单词之间的关系,如LLM的嵌入空间的几何特征,与语言区域诱导的表示的几何特征(即大脑嵌入)是一致的。
4 LLM和人类大脑处理自然语言的差异
人类大脑和基于Transformer的LLMs在处理自然语言时共享基本的计算原理,但它们的神经回路架构却有明显的不同。例如,在一项后续研究中,我们调查了Transformer-based LLMs与人类大脑中信息在不同层之间是如何处理的。团队发现,虽然在LLMs和人类大脑语言区域中,层间的非线性转换相似,但实现方式却有显著不同。与Transformer架构不同的是,它可以同时处理数百到数千个单词,而语言区域则似乎是串行地、逐词地、循环地和时间上分析语言。
5总结和未来方向团队工作积累的证据揭示了人类大脑和深度学习模型处理自然语言的几种共享计算原则。这些发现表明,基于统计学习、盲目优化和直接适应自然原则,深度学习模型可以提供一个新的计算框架,用于理解大脑处理自然语言的神经编码。与此同时,神经架构、语言数据的类型和规模、基于Transformer的语言模型的训练协议,以及人类大脑自然在社交环境中获得语言的生物结构和发展阶段之间存在显著差异。展望未来,我们的目标是创建具有改进信息处理能力和在现实世界中运作的生物启发式人工神经网络。我们计划通过调整神经架构、学习协议和训练数据,使其更符合人类经验。
致谢
所描述的工作是谷歌研究与普林斯顿大学神经科学研究所和心理学系的Hasson实验室,希伯来大学商学院和认知系的DeepCognitionLab以及纽约大学朗尼医学中心综合癫痫中心研究人员长期合作的结果。
来源:人工智能学家