衡宇 发自 凹非寺量子位 | 公众号 QbitAI成本不到150元,训练出一个媲美DeepSeek-R1和OpenAI o1的推理模型?!这不是洋葱新闻,而是AI教母李飞飞、斯坦福大学、华盛顿大学、艾伦人工智能实验室等携手推出的最新杰作:s1。在数学和编程能力的评测集上,s1的表现比肩DeepSeek-R1和o1。此外,团队提到,s1-32B仅仅使用了1000个样本训练,在AIME24上的成绩就能接近Gemini 2.0 Thinking,是“样本效率最高的开源数据推理模型”。研究人员还表示,Budget forcing在控制、缩放和性能指标上表现最佳。而其它方法,如Token-conditional控制、步骤条件控制、类条件控制等,均存在各种问题。One More Things1模型,是在一个1000个精挑细选的小样本数据集上,通过SFT,让小模型能力在数学等评测集上性能飙升的研究。但结合近期刷爆全网的DeepSeek-R1——以1/50成本比肩o1性能——背后的故事,可以窥见模型推理技术的更多值得挖掘之处。模型蒸馏技术加持下,DeepSeek-R1的训练成本震撼硅谷。现在,AI教母李飞飞等,又一次运用「蒸馏」,花费低到令人咋舌的训练成本,做出了一个能媲美顶尖推理模型的32B推理模型。一起期待大模型技术更精彩的2025年吧~arXiv:https://arxiv.org/pdf/2501.19393GitHub:https://github.com/simplescaling/s1参考链接:https://techcrunch.com/2025/02/05/researchers-created-an-open-rival-to-openais-o1-reasoning-model-for-under-50/— 完 —摘要:此外,团队提到,s1-32B仅仅使用了1000个样本训练,在AIME24上的成绩就能接近Gemini 2.0 Thinking,是“样本效率最高的开源数据推理模型”。研究人员还表示,Budget forcing在控制、缩放和性能指标上表现最佳。而其它方法,如T
来源:璐璐课堂
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!