Nature:450 毫秒神经放电预测“人性”

B站影视 电影资讯 2025-06-27 17:32 1

摘要:来自国际团队的研究人员通过研究小鼠多巴胺能神经元,揭示了其在多时间尺度强化学习(RL)中的动态编码机制。研究发现不同神经元通过差异化的时间折扣因子(temporal discount factors)分别编码短期和长期奖励预测误差(RPE),首次证实了细胞特异

生物通

2025年06月05日 12:50广东

来自国际团队的研究人员通过研究小鼠多巴胺能神经元,揭示了其在多时间尺度强化学习(RL)中的动态编码机制。研究发现不同神经元通过差异化的时间折扣因子(temporal discount factors)分别编码短期和长期奖励预测误差(RPE),首次证实了细胞特异性时间计算特性,为理解决策行为中的非指数折扣现象提供了神经基础,并为优化人工强化学习算法开辟了新路径。

中脑多巴胺神经元(DANs)向来被认为是奖赏预测误差(RPE)的神经载体,通过时序差分(TD)强化学习算法教导下游神经回路预测未来奖赏。但传统TD算法存在明显局限——它只计算未来奖赏的时序折现均值,却丢弃了奖赏强度分布和延迟时间等关键信息。

这项突破性研究提出了全新算法"时间-强度强化学习"(TMRL),将分布强化学习扩展到时间和强度两个维度。更令人振奋的是,研究者通过光遗传学标记的小鼠实验发现:DANs群体展现出惊人的多样性——不同神经元对奖赏延迟时间(时间折扣率)和奖赏强度的编码存在显著差异。这种群体编码特性使得仅需分析450毫秒的DANs放电模式,就能构建出未来奖赏的二维概率分布图谱。

实验数据还揭示,从该神经编码解码出的奖赏时间预测与小鼠的 anticipatory behavior( anticipatory behavior)高度相关,暗示这套系统可能直接指导"何时行动"的决策。通过构建 foraging( foraging)行为模型,研究团队进一步证明:在动态变化的奖赏环境中,这种联合概率分布编码能显著提升适应性决策的效率。

这些发现不仅重塑了人们对多巴胺系统计算原理的认知,更提出了TD算法的局部时间扩展方案——只需简单修改现有框架,就能实现这种多维奖赏信息的获取与计算。该研究为理解智能体如何在复杂环境中进行风险-收益权衡提供了全新的神经计算视角。

参考文献

Multi-timescale reinforcement learning in the brain

来源:营养和医学

相关推荐