摘要:李飞飞等来自斯坦福大学和华盛顿大学的研究人员,以不到 50 美元的云计算费用,成功训练出新型人工智能推理模型 ——s1。该模型借鉴 DeepSeek 的思路研发,在数学和编码能力测试中,表现与 OpenAI 的 o1 和 DeepSeek 的 R1 等顶尖推理
据《科创板日报》报道,李飞飞等来自斯坦福大学和华盛顿大学的研究人员,以不到 50 美元的云计算费用,成功训练出新型人工智能推理模型 ——s1。该模型借鉴 DeepSeek 的思路研发,在数学和编码能力测试中,表现与 OpenAI 的 o1 和 DeepSeek 的 R1 等顶尖推理模型相近,为 AI 领域带来了新的思考。
李飞飞在人工智能领域履历丰富。2000 年,她进入加州理工学院攻读研究生,投身人工智能研究领域,并于 2005 年获得电子工程博士学位。此后,她在学术上成果显著,33 岁成为斯坦福计算机系终身教授,44 岁当选美国国家工程院院士。在计算机视觉尚处冷门阶段时,她创立了拥有 1500 万张图片的数据库 ImageNet,为人工智能计算机视觉研究奠定了基础,也在 AI 领域积累了声誉。2024 年 4 月,李飞飞创办 World Labs(空间智能),完成从学者到创业者的转型。同年 7 月,公司在一轮融资中筹集约 1 亿美元资金,估值突破 10 亿美元,发展态势良好。
此次推出的 s1 模型,研发过程和技术有独特之处。研究人员表示,s1 通过蒸馏法从谷歌推理模型 Gemini 2.0 Flash Thinking Experimental 中提炼而来。为实现这一成果,研究团队采用 test - time scaling 方法,构建小型数据集 s1K。该数据集经难度、多样性和质量筛选,包含 1000 个精选问题及答案,并附上 “推理” 过程。整个训练过程使用 16 台英伟达 H100 GPU,耗时 26 分钟完成。这与 DeepSeek、OpenAI 等采用的传统大规模强化学习方法(RL)不同,s1 模型借助较小数据集和监督微调(SFT)蒸馏推理模型,降低了训练成本,提高了训练效率,为 AI 模型训练提供了新途径。
为提升 s1 模型答案的准确度,研究团队运用 “预算强制” 技术。该技术能控制测试时间计算,通过提前终止模型思考过程或追加 “等待” 指令延长思考时间,优化模型性能。研究数据显示,新模型 s1 - 32B 运用该技术后,性能与测试时的计算资源呈正相关,即随着计算资源合理增加,模型性能会提升。
测试结果显示,s1 模型表现不错。在竞赛数学问题测试中,s1 - 32B 的表现比 o1 - preview 高出 27%(MATH 和 AIME24);在 AIME24 测试项目上,s1 - 32B 的表现与 Gemini 2.0 Thinking API 相近,一定程度上证明了其蒸馏过程的有效性,也表明 s1 模型在数学和编码能力方面具备与顶尖模型竞争的实力。
不过,s1 模型的出现也引发了行业讨论。此前,OpenAI 曾指控 DeepSeek 不当使用其 API 数据进行蒸馏。如今 s1 模型以低成本达到与顶尖模型相近的性能,一些分析人士担心,若轻易就能复制和超越现有顶级模型,大型 AI 公司多年的研发投入和技术优势可能受到影响,进而改变 AI 行业的发展格局和竞争态势。另外,虽然蒸馏技术在低成本复现 AI 模型方面有能力,但对新 AI 模型性能的实质性提升效果目前不太明显,人们对 s1 模型未来的发展和应用前景存在一定疑虑。
不可否认,李飞飞团队的成果为 AI 研究带来了新活力和思路,让更多研究机构和开发者看到低成本进行 AI 模型训练的可能性,有望推动 AI 领域朝着多元化和低成本方向发展。
来源:人工智能学家