摘要:DeepSeek 以低成本开发出来的大模型,吊打 Meta、谷歌、微软花费了数十亿美元打造出来的大模型,仅凭一己之力就掀翻了美国科技股,据统计总共使股市市值蒸发了约 1 万亿美元。
DeepSeek R1 的横空出世,给美国 AI 行业敲响了一记警钟。
DeepSeek 以低成本开发出来的大模型,吊打 Meta、谷歌、微软花费了数十亿美元打造出来的大模型,仅凭一己之力就掀翻了美国科技股,据统计总共使股市市值蒸发了约 1 万亿美元。
上线短短几天,创下全球 140 个主流市场应用商店登顶纪录,让多国开始恐慌,纷纷宣布禁用 DeepSeek,甚至美国提出了一项激进的法案,把下载和使用 DeepSeek 定为非法行为——相关违法者将面临最高 20 年监禁及最高 1 亿美元的罚款。如今 DeepSeek 的影响力依然在持续扩大。
近日,李飞飞团队带来一个更加炸裂的消息,李飞飞等斯坦福大学和华盛顿大学研究人员以不到 50 美元(365 元人民币)的云计算费用训练了一个名叫 s1 的人工智能推理模型。
该模型在数学和编程能力测试中表现出与 OpenAI 的 o1 和 DeepSeek 的 r1 等顶尖推理模型相似的水平。
目前,s1 模型以及用于训练它的数据和代码现已放在了 GitHub 上。
GitHub 地址:https://github.com/simplescaling/s1
s1 模型的开源发布标志着 AI 研究的一个里程碑。s1 背后的研究团队表示,从一个现成的基础模型出发,通过蒸馏技术对其进行微调,从而提取出强大的推理能力。在这个项目中,s1 模型是从谷歌的 Gemini 2.0 Flash Thinking Experimental 模型中蒸馏而来的
蒸馏是一种通过使用答案进行训练的方法,从另一个 AI 模型中提取特定的功能。
值得一提的是,伯克利大学的研究人员在上个月也利用蒸馏技术,仅花费约 450 美元就创建了一个类似的 AI 推理模型。
这些成果表明,即便没有巨额资金的支持,研究人员仍然能够在 AI 领域取得突破性的进展。s1 模型的出现也引发了一系列关于 AI 模型商品化的深刻问题的讨论。
如果有人能够以极低的成本高度复制原本需要数百万美元才能开发的模型,那么 AI 行业的护城河究竟在哪里?这种低成本复制的能力无疑对大型 AI 实验室构成了挑战,因为它们通常需要投入数百万美元来开发和维护自己的模型。
s1 论文还显示,推理模型还可以使用一种名为监督微调(SFT)的方法,用一个比较小的数据集进行蒸馏。
因此研究人员为了训练 s1 模型,创建了一个由 1000 个精心挑选的问题组成的数据集,并将其与答案配对。这些问题来自谷歌的 Gemini 2.0 Flash Thinking Experimental 模型,每个答案都经过了深入的“思考”过程。通过这种方式,研究人员成功地训练出了一个能够在多个 AI 基准测试中表现出色的模型。
现在蒸馏已被证明是一种低成本重现 AI 模型功能的好方法,但它并不能开发出比现有模型好得多的新的 AI 模型。
如果要开发出更好的模型,还需要投入更多的资源,Meta 、谷歌和微软计划 2025 年在 AI 基础设施上投资数千亿美元,其中一部分将用于训练下一代 AI 模型。
来源:麻辣小王子