脑机启侦|用大模型解码大脑:使用 MindLLM 将脑成像直接转换为文本(05.26)

B站影视 港台电影 2025-05-26 19:38 3

摘要:该模型将神经科学知情的注意力机制与大型语言模型 (LLM)集成,与之前的模型(如 UMBRAE、BrainChat 和 UniBrain)相比,该模型的性能优于现有方法,下游任务提高了 12.0%,看不见的主题泛化增加了 16.4%,新任务适应能力提高了 25

耶鲁大学、达特茅斯学院和剑桥大学的研究人员开发了 MindLLM,这是一种与学科无关的模型,用于将功能性磁共振成像 (fMRI) 信号解码为文本。

该模型将神经科学知情的注意力机制与大型语言模型 (LLM)集成,与之前的模型(如 UMBRAE、BrainChat 和 UniBrain)相比,该模型的性能优于现有方法,下游任务提高了 12.0%,看不见的主题泛化增加了 16.4%,新任务适应能力提高了 25.0%。

01 主流fMRI解码模型的痛点

MindLLM 配备了一个与主题无关的 fMRI 编码器和一个现成的 LLM。

将大脑信号“翻译”为语言,是脑机接口研究的一项终极目标。过去几年,随着神经影像数据集的积累与语言模型(LLMs)的飞速发展,越来越多研究尝试将这两者结合,借助大语言模型的强大语义理解能力,将fMRI信号映射为文字内容。

但这条路并不平坦。当前主流fMRI解码模型普遍存在三大痛点:

▲缺乏泛化能力:模型通常只能在训练过的任务或语义类别上发挥作用。

▲强依赖个体适配:模型常需针对每一位受试者单独训练,缺乏通用性。

▲任务范围狭窄:解码目标多集中于视觉或单句理解,难以扩展到复杂语境下的自然语言生成。

为了解决这些问题,加州大学伯克利分校与OpenMind Lab团队联合提出了MindLLM,一个具备跨任务泛化、跨个体适配、语义保真度高的fMRI-to-Text解码系统。


02 MindLLM模型:

模型架构。

MindLLM 设计由一个 fMRI 编码器和一个大型语言模型组成。

首先,fMRI 扫描将大脑划分为称为体素(如 3D 像素)的微小 3D 单元。不同的人有不同的大脑结构,当与标准化的大脑图谱对齐时,这些结构永远不会完全匹配。由于活动体素的数量和排列可能会有所不同(研究中个体之间有 12,682 到 17,907 个),因此每个主题都需要不同的输入维度。

由于大脑功能在个体之间保持一致,即使体素分布不同,fMRI 编码器内的神经科学信息活动映射(使用改进的注意力机制)允许系统适应不同受试者的这些不同的输入形状。

通过将体素的功能信息与其原始 fMRI 值分离,该模型利用了神经科学研究中预先存在的知识,从而提高了个体之间的一致性。大脑指令调整 (BIT) 进一步增强了系统从 fMRI 信号中提取不同语义表示的能力。BIT 是一种使用大规模 fMRI 数据集的指令调整方法,其中包含来自查看相同图像的多人的 fMRI 记录。这些多主体 fMRI 数据和相关的文本注释加强了模型的语义理解。

全面的 fMRI 到文本基准测试评估了模型的性能,在大脑字幕、问答和推理任务中表现出卓越的结果。MindLLM 更好地适应新主题,与以前的主题无关模型相比,性能提高了 16.4%。它对新任务的适应性提高了 25%,使其能够有效地处理不同的挑战。

模型对比方面:MindBridge(Wang 等人,2024a)将体素展平后自适应压缩成固定维度,但


03 泛化性、通用性和表达能力全方位提升

该模型的注意力模式显示了特定大脑区域与感知和推理等认知功能之间的联系。许多先前的模型只专注于从与视觉刺激相关的 fMRI 信号生成标题。MindLLM 通过集成支持知识检索、符号语言处理和复杂推理的数据集来超越这些限制。包含基于记忆的任务,例如检索以前看到的图像的描述,加强了该模型对认知神经科学的适用性。开放式问答功能进一步扩展了可能的应用范围,使医疗和研究环境都受益。

已建立的神经科学图谱(包括 Glasser 和 Rolls 的图谱)提供了功能先验,可帮助模型区分体素位置和活动值。通过集成这些标准化映射,该模型保持了主题泛化和神经科学完整性。

当前的实施处理静态 fMRI 快照,限制了系统随着时间的推移捕捉思维进展的能力。未来的进步可能涉及结合时间建模技术,例如递归架构或顺序注意力机制,以分析大脑活动模式如何演变。MindLLM 提供了关于大脑活动如何转化为语义信息的可解释见解,加强了其作为神经科学研究工具的作用。扩展到实时 fMRI 解码可能为神经假肢、精神状态跟踪和脑机接口开辟新的可能性。


新闻来源:Medical Press

论文参考:DOI:10.48550/arxiv.2502.15786

来源:启真脑机智能基地

相关推荐