DINOv3确实很“类脑”!Meta深度研究揭示模型、训练与数据的影响

B站影视 欧美电影 2025-09-04 04:07 1

摘要:近年来,一个引人入胜的现象是,先进的AI视觉模型在处理图像时,其内部的表征(representations)与人脑的神经活动惊人地相似。但这背后深层的驱动力是什么?是模型架构、训练数据,还是训练时长?为了解开这个谜题,来自Meta AI和巴黎高等师范学院的研究

近年来,一个引人入胜的现象是,先进的AI视觉模型在处理图像时,其内部的表征(representations)与人脑的神经活动惊人地相似。但这背后深层的驱动力是什么?是模型架构、训练数据,还是训练时长?为了解开这个谜题,来自Meta AI和巴黎高等师范学院的研究者们进行了一项系统性的研究,深入剖析了这三大因素如何独立及共同作用,推动AI模型向“类脑”的视觉系统演化。

这项研究的核心是,通过系统地训练一系列自监督视觉Transformer模型(DINOv3),并将其与高时空分辨率的人脑活动数据(fMRI和MEG)进行对比,从而“解耦”(Disentangle)各个因素的影响。研究结果不仅证实了AI与大脑的趋同性,更揭示了这种趋同性背后遵循着特定的时空规律,甚至与大脑皮层的结构和功能属性息息相关。

论文标题: Disentangling the Factors of Convergence between Brains and Computer Vision Models作者天团: Joséphine Raugel, Marc Szafraniec, Huy V. Vo, Camille Couprie, Patrick Labatut, Piotr Bojanowski, Valentin Wyart, Jean-Rémi King机构: Meta AI, 巴黎高等师范学院-PSL大学 (Ecole Normale Supérieure - PSL Université)论文地址: https://arxiv.org/abs/2508.18226

现代深度学习模型,尤其是在计算机视觉领域,已经在许多任务上达到了甚至超越了人类的水平。更令人惊讶的是,这些模型的内部工作方式似乎在模仿大脑。大量研究通过功能性磁共振成像(fMRI)、脑磁图(MEG)等技术发现,AI模型的激活模式可以线性地预测出大脑在看到相同图像时的神经响应。

然而,之前的研究大多使用预训练好的模型,这些模型在架构、训练目标和数据上各不相同,使得很难弄清楚究竟是哪个因素导致了这种“不谋而合”。本研究的重大意义就在于,它首次通过严格控制变量的方法,系统地探究了模型尺寸、训练量和图像类型这三个关键因素的作用。

为了精确衡量AI模型与大脑的相似度,研究者采用了三种互补的度量指标:

编码分数 (Encoding Score): 这是最核心的指标,通过线性回归模型,衡量从AI模型各层的激活值预测大脑神经活动(fMRI或MEG信号)的准确度。分数越高,代表AI的表征与大脑的表征越相似。空间分数 (Spatial Score): 基于fMRI数据,该指标衡量AI模型的层次结构是否与大脑视觉皮层的空间组织结构相对应。一个“类脑”的模型,其浅层应该更好地预测初级视觉皮层(如V1)的活动,而深层则应更好地预测高级视觉区域(如前额叶皮层)的活动。时间分数 (Temporal Score): 基于MEG数据,该指标衡量AI模型的层次结构是否与大脑处理视觉信息的时间动态相对应。即,模型的浅层应与大脑的早期神经响应(~100ms)对齐,深层则与晚期响应对齐。

研究团队基于强大的自监督模型 DINOv3,训练了多个变体,系统地改变其模型尺寸、训练步数以及训练数据的类型(人类中心的自然图像、卫星图像、细胞图像)。

首先,研究证实了完全训练好的DINOv3模型与人脑视觉通路具有高度的相似性。其表征能够显著预测从初级视觉皮层到高级前额叶区域的fMRI信号,以及图像出现后长达3秒的MEG信号。

更重要的是,模型的计算层次与大脑的时空处理层次完美对应:模型浅层对应大脑的初级、快速响应;模型深层对应大脑的高级、慢速响应。

研究的关键发现来自于对模型训练过程的分析。结果表明,“类脑”特性不是一蹴而就的,而是遵循着一个特定的“发育”轨迹。在训练初期,模型首先与大脑的初级感觉皮层(如V1, V2)对齐。随着训练的进行,与更高级皮层的相似性才逐渐涌现。

研究者引入了“半衰期”(half time)的概念,即相似度分数达到其最终值一半所需的训练量。分析发现,大脑中距离V1越远的区域,其对应的“半衰期”越长,意味着需要更多的训练才能与模型对齐。这个过程完美复现了大脑视觉通路从后到前的处理流。

研究发现, 模型尺寸越大,其与大脑的相似度越高。更大的模型不仅在最终的编码、空间和时间分数上表现更好,而且这种优势在高级皮层(如BA44, IFS)上尤为明显。这表明,增加模型容量是实现与大脑高级功能对齐的关键。

研究比较了在三种不同类型图像(人类中心的自然图像、卫星图像、细胞图像)上训练的模型。结果显示,尽管所有类型的图像都能让模型学习到一些通用的低级视觉特征,但 只有在人类中心的自然图像上训练的模型,才能与大脑达成最高度的整体相似性。这强调了训练数据的“生态有效性”(ecologically valid)——即数据需要反映生物体在自然环境中接收的视觉输入——对于构建类脑模型至关重要。

最令人惊叹的发现是,AI模型学习“类脑”表征的“发育”速度,与大脑皮层本身的多种生物属性高度相关。模型学习最慢的那些表征,恰好对应于那些在人类发育中成熟最晚、皮层最厚、髓鞘化程度最低、内在时间尺度最慢的脑区。

这一发现强有力地表明,AI模型的学习轨迹可能在无意中模拟了人类大脑视觉功能的发育过程,为理解大脑如何“学会”看世界提供了一个全新的计算视角。

04 总结与展望

这项研究系统地解耦了模型尺寸、训练量和数据类型对塑造类脑表征的影响,得出了清晰的结论:更大、在更生态化的数据上训练更久的模型,会变得更像大脑。

小编认为这项工作不仅深化了人们对AI与大脑相似性背后原因的理解,更重要的是,它展示了如何利用AI模型作为一种“计算工具”来探索大脑组织的基本原则。通过观察机器如何“学会”像人一样观看,或许能最终揭示人类大脑视觉系统发育和成熟的奥秘。这项研究为连接人工智能和神经科学两大领域架起了一座坚实的桥梁。

来源:极市平台

相关推荐