摘要:新人辈出,李飞飞推出比肩DeepSeekAI人工智能技术小模型。是咋回事呢。李飞飞团队推出的S1模型,被认为在一定程度上有比DeepSeek更便宜且性能可比肩的情况,具体如下:
新人辈出,李飞飞推出比肩DeepSeekAI人工智能技术小模型。是咋回事呢。李飞飞团队推出的S1模型,被认为在一定程度上有比DeepSeek更便宜且性能可比肩的情况,具体如下:
推出背景
近年来人工智能领域竞争激烈,尤其是大型语言模型的开发成为焦点,DeepSeek以其高效、低成本的模型在业内有“价格屠夫”之称。在此背景下,李飞飞团队推出了S1模型。
S1模型情况
- 训练成本:李飞飞团队声称仅用50美元的云计算成本就完成了S1模型的训练,这主要指使用16个NVIDIA H100 GPU进行26分钟的模型微调,但此成本不包括前期数据准备、基座模型开发和研究人员的劳动成本等。
- 性能表现:在数学和编码能力测试中,S1模型的表现与DeepSeek的R1相当,甚至在某些领域(如竞赛数学问题)略胜一筹,在需要深层推理的任务中领先DeepSeek R1约27%。
技术原理
- 采用蒸馏技术:S1并非从零开始训练,而是以谷歌Gemini 2.0和阿里云Qwen等现有大模型为“教师”,通过蒸馏技术提取其知识精华,再微调至特定任务,大幅降低了数据与算力需求。
- 使用特制数据集:团队构建了一个仅包含1000个精选样本的S1K数据集,基于难度、多样性和质量三个标准筛选,确保每个问题都具有挑战性。
- 创新训练方法:采用名为“test - time scaling”的创新训练方法,并结合“预算强制”技术来控制测试时间,可在测试时通过动态调整计算资源来延长或缩短模型“思考”时间,从而实现性能优化。
来源:虞山清风798
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!