GPT-5涌现能力可预测?UC伯克利仅使用当前模型检查点预测未来模型

B站影视 2024-12-01 05:28 2

摘要:机器之心报道机器之心编辑部LLM 规模扩展的一个根本性挑战是缺乏对涌现能力的理解。特别是,语言模型预训练损失是高度可预测的。然而,下游能力的可预测性要差得多,有时甚至会出现涌现跳跃(emergent jump),这使得预测未来模型的能力变得具有挑战性。最近,来

机器之心报道机器之心编辑部LLM 规模扩展的一个根本性挑战是缺乏对涌现能力的理解。特别是,语言模型预训练损失是高度可预测的。然而,下游能力的可预测性要差得多,有时甚至会出现涌现跳跃(emergent jump),这使得预测未来模型的能力变得具有挑战性。最近,来自加州大学伯克利分校(UC 伯克利)的研究团队提出涌现预测的任务:是否可以仅通过使用 GPT-N 模型的检查点(即当前模型的状态)来预测 GPT-N+1(未来模型)是否会出现涌现能力? 并在论文《Predicting Emergent Capabilities by Finetuning》中给出了答案。

来源:伪科学家

相关推荐