机器之心报道机器之心编辑部LLM 规模扩展的一个根本性挑战是缺乏对涌现能力的理解。特别是,语言模型预训练损失是高度可预测的。然而,下游能力的可预测性要差得多,有时甚至会出现涌现跳跃(emergent jump),这使得预测未来模型的能力变得具有挑战性。最近,来自加州大学伯克利分校(UC 伯克利)的研究团队提出涌现预测的任务:是否可以仅通过使用 GPT-N 模型的检查点(即当前模型的状态)来预测 GPT-N+1(未来模型)是否会出现涌现能力? 并在论文《Predicting Emergent Capabilities by Finetuning》中给出了答案。摘要:机器之心报道机器之心编辑部LLM 规模扩展的一个根本性挑战是缺乏对涌现能力的理解。特别是,语言模型预训练损失是高度可预测的。然而,下游能力的可预测性要差得多,有时甚至会出现涌现跳跃(emergent jump),这使得预测未来模型的能力变得具有挑战性。最近,来
来源:伪科学家
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!