改善AI模型学新忘旧,Google提出嵌套学习新解法

B站影视 内地电影 2025-11-13 15:10 1

摘要:改善AI模型学新忘旧,Google提出嵌套学习新解法

Google研究人员公开嵌套学习(Nested Learning)这项新模型训练方法,主张把单一模型视为多个彼此衔接或并行的嵌套学习子问题,并以不同更新频率运行,目标是在持续学习中降低灾难性遗忘(Catastrophic Forgetting),同步提升长内容理解与记忆管理能力。

所谓的灾难性遗忘,是模型持续学习时,新数据训练会把权重往符合新任务的方向调整,结果把原先针对旧任务学到的特征表示复写。

嵌套学习的切入点是重新定义架构与优化的关系,研究将模型拆解为多层级的优化子问题,各层按照更新频率排序,并各自拥有脉络资讯流(Context Glow),形成在多时间尺度上协同运行的学习系统。通过这种层级化设计,模型不只处理输入窗口中的即时脉络,也能跨多个时间尺度集成新旧知识,概念上更接近人脑神经可塑性巩固记忆的机制。

研究人员用一个新的角度重新理解模型内部的运行,他们认为,像反向传播(Backpropagation)或注意力机制这些深度学习的基本组件,其实都可以被视为记忆过程的一部分。也就是说,模型在学习时,不只是调整权重,而是在创建不同层次的关联与回忆方式。这种对模型的重新理解,让研究人员能以统一的架构来看待模型设计。

研究也提出新的连续体记忆系统(Continuum Memory Systems)观念,主张人工智能的记忆不该只分成短期与长期两种,而是应该像光谱一样,依更新速度形成多层次的记忆结构,让模型在吸收新知的同时,更稳定地保留旧知识,避免遗忘以往的能力。

Google开发Hope实验模型来验证这个想法,Hope可以自行调整记忆方式与学习规则,也就是让模型学会怎么学习。相较于过去仅能在固定层次调整的架构,Hope能在更多层面同时更新与优化,因此在长时间学习或处理庞大内容时,表现出更好的稳定性与记忆延展能力。

在多项语言建模与常识推理测试中,Hope模型展现出比现有主流架构更稳定,Google指出,Hope在语言模型评测中的困惑度更低,代表模型能以更精确的方式预测句子中下一个词。在常识推理任务上的准确率也更高,显示其推理能力与知识集成效果更好。

在更具挑战性的长上下文任务中,例如大海捞针(Needle-in-a-Haystack)测试,Hope展现出良好的记忆管理能力。官方比较显示,在不同难度等级的长上下文任务上,Hope与Titans皆明显优于TTT与Mamba2。

来源:新快科技

相关推荐