摘要:人类大脑能够从视觉输入中提取复杂的信息,包括物体、它们的空间与语义关系,以及与环境的互动。然而,长期以来,缺乏一种量化方法来刻画这种复杂信息。本研究探讨了大语言模型(LLM)所编码的上下文信息是否有助于建模大脑从自然场景中提取的复杂视觉信息。研究团队发现,将自
摘要
人类大脑能够从视觉输入中提取复杂的信息,包括物体、它们的空间与语义关系,以及与环境的互动。然而,长期以来,缺乏一种量化方法来刻画这种复杂信息。本研究探讨了大语言模型(LLM)所编码的上下文信息是否有助于建模大脑从自然场景中提取的复杂视觉信息。研究团队发现,将自然场景的文字描述输入LLM所得到的嵌入向量,可以成功预测大脑在观看相应场景时的活动模式。这种映射不仅揭示了不同脑区的选择性,还强大到足以从脑活动重建出场景描述。进一步的模型比较表明,LLM与大脑表征高度契合,正源于其整合了超越单个词语的复杂上下文信息。研究还训练了深度神经网络,将图像直接转化为LLM表征,结果显示,尽管训练使用的数据规模小得多,这些模型比大量现有的视觉模型更符合大脑表征规律。总体而言,研究提示:LLM的嵌入为理解大脑如何从视觉输入中提取复杂信息提供了有力的表征框架 。
关键词:大脑视觉表征,大语言模型,功能核磁共振(fMRI),自然场景数据,表征相似性分析(Representational Similarity Analysis, RSA),深度神经网络(ANN),语义上下文
彭晨| 作者
周莉 | 审校
论文题目:High-level visual representations in the human brain are aligned with large language models
论文链接:https://www.nature.com/articles/s42256-025-01072-0
发表时间:2025年8月7日
论文来源:Nature Machine Intelligence
大脑如何将光信号转化为可理解的场景?过去的研究多集中于识别“这是什么物体”,而忽视了“物体处于什么环境”。然而,日常场景中,环境与语境往往比单个物体本身是什么更重要。本研究提出一个大胆假设:大脑通过层层计算,将视觉输入投射到一个多维空间,而这一空间的结构,正可以由LLM对图像描述的语义嵌入逼近。这意味着,语言中的抽象语义,或许与视觉中的高级表征存在某种天然的契合 。
本研究依托“自然场景数据集”(Natural Scenes Dataset, NSD),其中包含人类受试者在7T功能磁共振下观看数以万计自然场景的脑活动记录。这些场景来自COCO图像库,每张图像都有人工撰写的文字描述。研究者将这些文字输入到MPNet等LLM中,得到句子级别的嵌入向量,并与受试者的fMRI激活模式进行对比。为了量化两者的契合度,团队采用了表征相似性分析(RSA)和线性编码模型,结果显示:LLM嵌入与大脑高级视觉区的活动显著相关,且能够跨个体泛化 。
图 1. 来自LLM嵌入的映射捕获了对自然场景的视觉反应。a、LLM到大脑映射的方法。NSD数据集中的每个图像都与不同的人类观察者编写的描述场景的标题相关联。这些标题通过LLM模型来生成嵌入。研究表征相似性分析RSA和编码模型使用两种方法来量化这些嵌入和fMRI数据之间的匹配。b, RSA揭示了一个扩展的大脑区域网络,其中LLM表征与大脑活动相关。LLM嵌入(MPNet)与大脑表征(参与者N=8)之间的组平均Pearson相关性。c、线性编码模型强调了类似的大脑区域网络。我们执行体素线性回归来预测LLM嵌入的体素活动。所示为测试集上预测和实际beta反应之间的组平均Pearson相关图。d、编码模型性能与参与者间一致性。散点图中的每个点表示给定体素的编码模型性能与参与者之间的一致性,计算为每个参与者体素活动与测试图像上其余七个参与者体素活动的平均值之间的平均Pearson相关性。编码模型在所有roi中都接近于参与者间的一致,表明了良好的性能。
如果LLM嵌入能预测脑区反应,那么反过来,能否从脑活动中“解读”出文字?研究者训练了线性解码模型,将fMRI信号映射回LLM嵌入空间,再利用数百万条句子作为字典进行匹配。令人震撼的是,模型不仅能够生成与受试者看到的场景高度一致的描述,还能区分“人物”“场景”“食物”等不同选择性脑区的特征。这意味着,借助LLM,我们正逼近一种语义层面的“脑机翻译”。
图 2. 基于LLM的脑活动线性预测与解码。a,线性编码模型捕捉不同大脑区域的选择性。我们对比了5个新的人与地点相关的句子(左)和5个食物与人相关的句子(右)预测的大脑活动。这些对比突出了已知的对人、地点和食物有选择性的大脑区域(人和地方区域被定位为非功能性障碍的一部分(左);描述的食物区域显示为白色轮廓(右)。b,从视觉诱发的大脑反应中解码字幕。上图:拟合了一个线性模型,从fMRI体素活动中预测LLM嵌入(MPNet)。然后,使用最近邻查找为每个图像生成标题。左下:每个参与者在测试集中的预测分数的核密度估计图,使用预测和目标嵌入之间的Pearson相关性进行量化。噪声上限计算为每个图像的五个人工生成的标题之间的一致性。右下:目标(蓝色),解码(粉红色)和最近的训练(绿色)标题示例,来自于hold -out测试集中的不同参与者,跨越预测分数的范围。解码器不是简单地查找最接近的训练项,而是提供另一个适当的标题。排名是指所示样本的预测得分(即,排名0是该参与者的最佳预测,而排名514是最差的预测)。
进一步的分析表明,LLM与大脑契合的关键,在于它能整合整个句子的上下文信息。研究者对比了不同模型:仅依赖物体类别标签、单词嵌入,或是仅使用名词、动词。结果发现,只有完整句子级的嵌入,才能最好地匹配大脑活动。这说明,大脑高级视觉加工并非简单的“物体清单”,而更像是“语义叙事”,其中语境、关系和互动才是决定性的 。
图 3. LLM与视觉诱发的大脑活动的匹配是源于它们整合场景字幕中包含的复杂信息的能力。我们在NSD数据集的“流”ROI定义中应用RSA。“LLM标题”是指整个标题的LLM嵌入(MPNet),不同的组表示不同类别的控制模型。每个模型与大脑活动之间的匹配被量化为每个模型与给定ROI之间经过噪声上限校正的Pearson相关性。a,分类信息的LLM嵌入提高了与大脑数据的匹配。我们比较了多种表示类别信息的格式,从二进制多热向量(multi-hot),通过平均类别词的快速文本(fasttext)或手套(GloVe)词嵌入,到使用MPNet (LLM)嵌入所有类别词的连接。b, LLM嵌入捕获名词或动词之外的与大脑相关的信息。与完整标题(LLM标题)的LLM嵌入相比,连接标题名词(LLM名词)或动词(LLM动词)的LLM嵌入对大脑数据的匹配程度都要低得多(EVC中的LLM名词除外)。c, LLM嵌入捕获大脑相关的上下文信息。为了测试标题传达的上下文信息是否对匹配大脑数据很重要,我们将整个标题的嵌入与单个标题词的平均LLM、fasttext和GloVe嵌入进行了比较。
研究的最后一部分,研究团队训练了循环卷积神经网络(Recurrent Convolutional Neural Networks, RCNNs),让它们直接从图像学习预测LLM嵌入,而非传统的物体分类标签。结果显示,这些RCNN的表征与人脑活动的契合度,超过了包括CLIP、ResNet等在内的13种最先进视觉模型。值得注意的是,RCNN训练所需的数据量远少于对比模型,却依然取得更好结果。这意味着,以LLM嵌入为目标的训练,或许比单纯的物体识别更接近大脑真实的计算目标 。
图 4. LLM训练的深度循环卷积网络在预测大脑活动方面优于其他模型。a,RCNNs,有十个循环卷积层,分别是自下而上(紫色)、横向(绿色)和自上而下(橙色)的连接,然后是一个完全连接的读出层。训练目标是最小化网络输出和目标LLM标题嵌入之间的余弦距离。类别训练的控制网络是相同的,除了它们被训练来预测多热点类别标签。b,类别标签可以从LLM训练的RCNN活动中解码。在冻结网络权重后,我们测试了类别标签(分别是LLM嵌入)如何从LLM训练(分别是类别训练)网络的预读出层中的活动中解码。该图显示了测试性能(N = 10个网络实例的平均值;误差条表示标准差),量化为预测向量和目标向量之间的余弦相似度。c, LLM训练的RCNN与LLM嵌入。LLM训练的RCNN活动(最后一层和时间步)与场景字幕的LLM嵌入之间的Searchlight RSA对比。d,LLM训练与分类训练的RCNN。与c相似的图,但显示了LLM训练和类别训练的RCNN之间的对比(最后一层和时间步长)。e, LLM训练的RCNN与其他广泛使用的ANN的roi比较。各种模型的预读出层与ROI RDM之间的噪声天花板校正相关性。我们的RCNN模型显著优于所有其他模型(除了CORnet-S模型,该模型在顶叶ROI的表现差异不明显)
这项研究提出了一种统一的量化框架,将大脑视觉表征与语言模型的语义空间相连接。它不仅弥合了“视觉”与“语言”的传统鸿沟,还为未来的NeuroAI研究提供了新方向。更广泛地说,如果视觉和语言都投射到类似的高维空间,这种“公共语义坐标系”或许能解释多模态信息如何在大脑中整合。这对脑机接口、认知障碍康复,以及人工智能的跨模态学习,均具有深远启示。未来,研究者还需进一步揭示:大脑表征与LLM嵌入契合的具体要素是什么?上下文、语法、甚至跨物种的视觉系统,是否也遵循类似规律?这些问题的答案,推动我们更深入理解智能的本质 。
计算神经科学第三季读书会
从单个神经元的放电到全脑范围的意识涌现,理解智能的本质与演化始终是一个关于尺度的问题。更值得深思的是,无论是微观的突触可塑性、介观的皮层模块自组织,还是宏观的全局信息广播,不同尺度的动力学过程都在共同塑造着认知与意识。这说明,对心智的研究从最初就必须直面一个核心挑战:局部的神经活动如何整合为统一的体验?局域的网络连接又如何支撑灵活的智能行为?
继「神经动力学模型」与「计算神经科学」读书会后,集智俱乐部联合来自数学、物理学、生物学、神经科学和计算机的一线研究者共同发起「从神经动力学到意识:跨尺度计算、演化与涌现」读书会,跨越微观、介观与宏观的视角,探索意识与智能的跨尺度计算、演化与涌现。重点探讨物理规律与人工智能如何帮助我们认识神经动力学,以及神经活动跨尺度的计算与演化如何构建微观与宏观、结构与功能之间的桥梁。
详情请见:从神经动力学到意识:跨尺度计算、演化与涌现丨计算神经科学第三季·读书会启动
来源:集智俱乐部一点号