摘要:伦敦大学学院(UCL)塞恩斯伯里·惠康中心(SWC)的神经科学家发现,大脑使用两种不同的系统通过反复试验进行学习。这是首次发现第二种学习系统,为习惯的形成提供了新的见解。
伦敦大学学院的科学家发现了大脑的第二个学习系统,该系统能够解释习惯的形成过程,为成瘾、强迫症和帕金森病等疾病的治疗提供新的见解。
研究为大脑如何养成习惯提供了新的见解,并解释了为什么习惯如此难以改变。
伦敦大学学院(UCL)塞恩斯伯里·惠康中心(SWC)的神经科学家发现,大脑使用两种不同的系统通过反复试验进行学习。这是首次发现第二种学习系统,为习惯的形成提供了新的见解。
这项发现或将为制定与习惯性行为(例如成瘾和强迫行为)相关疾病的治疗策略提供科学基础。这项发表在《自然》杂志上的小鼠研究,或许也能为帕金森病带来新的治疗方法。
“本质上,我们发现了一种我们认为与习惯相关的机制。一旦你对某种行为形成了偏好,你就可以绕过基于价值观的系统,而只依赖你过去所做事情的默认策略。这或许能让你释放认知资源,对其他事情做出基于价值观的决策,”SWC 团队负责人兼该研究的主要作者马库斯·斯蒂芬森-琼斯(Marcus Stephenson-Jones)博士解释道。
图像显示了在任务期间大脑中两个被抑制的区域——背内侧纹状体(DMS)和纹状体尾部(TS)。图片来源:Hernando Martinez Vergara
研究人员在大脑中发现了一种新型的多巴胺信号,其功能与此前已知的信号不同。此前,人们已认识到多巴胺会产生奖赏预测误差(RPE),它能告诉大脑结果比预期更好还是更差。
在这项研究中,科学家们发现了第二种多巴胺信号,称为动作预测误差(APE),它追踪某个动作重复的频率。RPE和APE共同作用,为动物提供了两种不同的学习方式:选择最有回报的选项,或者重复最常选择的选项。
荧光图像显示了科学家记录的大脑位置——纹状体尾部(TS)和腹侧纹状体(VS)。图片来源:Francesca Greenstreet
想象一下你去附近的三明治店。第一次去的时候,你可能会花些时间挑选三明治,而且根据你选的三明治,你可能会喜欢也可能不喜欢。但如果你多次光顾这家店,你就不会再花时间琢磨该选哪个三明治,而是会默认选择你喜欢的。我们认为,正是大脑中的APE多巴胺信号让你储存了这种默认策略,”斯蒂芬森-琼斯博士解释说。
新发现的学习系统为大脑提供了一种更简单的信息存储方式,无需不断比较不同选择的价值。这种效率或许能让大脑同时处理多项任务。例如,学会开车后,你可以在开车时进行对话。你的默认系统负责处理日常驾驶任务,而基于价值的系统则专注于对话。
早期研究发现,参与学习的多巴胺神经元位于中脑的三个部分:腹侧被盖区、黑质致密部和黑质外侧部。虽然一些研究表明这些神经元在处理奖励方面发挥作用,但先前的研究显示,其中约一半与运动有关——但这种联系的目的仍不清楚。
流程图展示了奖励预测误差如何导致选择价值最高的选项,以及行动预测误差如何导致选择最常见的选项。图片来源:Sainsbury Wellcome Centre
RPE 神经元投射到纹状体除纹状体尾部以外的所有区域。而运动特异性神经元投射到除伏隔核以外的所有区域。这意味着伏隔核专门负责传递奖励信号,而纹状体尾部专门负责传递运动信号。
通过研究纹状体尾部,研究团队成功分离出运动神经元并发现其功能。为了验证这一点,研究人员在小鼠身上进行了一项听觉辨别任务,该任务最初由冷泉港实验室的科学家开发。共同第一作者弗朗西斯卡·格林斯特里特(Francesca Greenstreet)博士、埃尔南多·马丁内斯·韦尔加拉(Hernando Martinez Vergara)博士和伊冯娜·约翰逊(Yvonne Johansson)博士使用了一种基因编码的多巴胺传感器,结果表明该区域的多巴胺释放与奖励无关,但与运动有关。
奖赏和行动预测误差编码多巴胺神经元投射到纹状体的不同区域,以强化不同类型的联想。图片来源:Sainsbury Wellcome Centre
“当我们损伤纹状体尾部时,我们发现了一个非常独特的模式。我们观察到,受损小鼠和对照组小鼠最初的学习方式相同,但一旦它们的表现达到约60-70%,即形成了偏好(例如,对于高音调,向左;对于低音调,向右),对照组小鼠就会快速学习并达到专家级的表现,而受损小鼠则只能继续以线性方式学习。这是因为受损小鼠只能使用RPE,而对照组小鼠拥有RPE和APE两种学习系统,这有助于做出选择,”斯蒂芬森-琼斯博士解释说。
为了进一步理解这一点,研究小组沉默了专家小鼠的纹状体尾部,发现这对它们在任务中的表现产生了灾难性的影响。这表明,在早期学习中,动物使用基于 RPE 的价值导向系统形成偏好,而在后期学习中,它们会切换到专门使用纹状体尾部的APE来储存这些稳定的关联并驱动它们的选择。研究小组还利用由克劳迪娅·克洛帕特(Claudia Clopath)博士领导的大量计算模型,来了解RPE和APE这两个系统是如何协同学习的。
双多巴胺能教学信号用于学习基于价值或基于频率的决策策略。奖励预测误差用于更新选项的价值,使动物能够选择最有价值的选项。行动预测误差用于更新选项被选择的频率,使动物能够选择最常见的选项。图片来源:Sainsbury Wellcome Centre
这些发现暗示了为什么坏习惯如此难以戒除,以及为什么用其他行为替代旧习惯可能是最佳策略。如果你持续不断地用某种行为替代旧习惯,比如用嚼尼古丁口香糖代替吸烟,APE 系统或许就能接管旧习惯,并在旧习惯的基础上养成新的习惯。
“既然我们知道大脑中存在第二个学习系统,我们就有了科学依据来开发新的策略来戒除不良习惯。到目前为止,大多数关于成瘾和强迫症的研究都集中在伏隔核上。我们的研究开辟了一个新领域,让我们在大脑中寻找潜在的治疗靶点,”斯蒂芬森·琼斯博士评论道。
这项研究也对帕金森病具有潜在的意义。帕金森病已知是由中脑多巴胺神经元死亡引起的,尤其是在黑质致密部。已证实死亡的细胞类型是与运动相关的多巴胺神经元,它们可能负责编码 APE。这或许可以解释为什么帕金森病患者在进行诸如行走等习惯性行为时会感到障碍,但在进行诸如滑冰等更灵活的行为时却不会感到障碍。
马库斯·斯蒂芬森-琼斯博士(左)和弗朗西斯卡·格林斯特里特博士(右)在SWC实验室。图片来源:Sainsbury Wellcome Centre
“突然之间,我们有了帕金森症矛盾运动的理论。那些死亡的运动相关神经元正是驱动习惯性行为的神经元。因此,运用习惯性系统的运动会受到影响,但运用基于价值的灵活系统的运动则没有问题。这为我们提供了一个新的视角来观察大脑,也为我们提供了一种新的思考帕金森症的方法,”斯蒂芬森-琼斯博士总结道。
研究团队目前正在测试APE是否真的需要养成习惯。他们还在探索每个系统究竟在学习什么,以及两者如何协同工作。
资助来源:EMBO 长期奖学金(ALTF 827-2018)、瑞典研究理事会国际博士后资助(2020-06365)、盖茨比慈善基金会和惠康基金会的 Sainsbury Wellcome 中心核心资助(219627/Z/19/Z)、塞恩斯伯里·惠康中心博士课程以及欧洲研究理事会资助(起始编号 #557533)。
参考文献:“多巴胺能作用预测误差作为一种无价值教学信号”,作者:Francesca Greenstreet、Hernando Martinez Vergara、Yvonne Johansson、Sthitapranjya Pati、Laura Schwarz、Stephen C. Lenzi、Jesse P. Geerts、Matthew Wisdom、Alina Gubanova、Lars B. Rollik、Jasvin Kaur、Theodore Moskovitz、Joseph Cohen、Emmett Thompson、Troy W. Margrie、Claudia Clopath 和 Marcus Stephenson-Jones,2025年5月14日,《自然》。DOI: 10.1038/s41586-025-09008-9
来源:康嘉年華一点号