摘要:DeepSeek-R1直接杀进《Nature》封面,29.4万美元的训练账单,把动辄千万美元的大厂模型按在地上摩擦。
刚刷到一条消息,DeepSeek-R1直接杀进《Nature》封面,29.4万美元的训练账单,把动辄千万美元的大厂模型按在地上摩擦。
数学竞赛题从15.6%飙到86.7%,这涨幅比A股涨停还刺激。
更离谱的是,它压根没学人类怎么推理,全靠“答对了就奖励”这招,自己琢磨出解题套路。
这事儿最扎心的点在哪?
以前总觉得AI得靠人类喂标准答案,现在人家直接开卷考,还考赢了。
就像你教小孩做题,不给他讲步骤,只告诉他“做对给糖”,结果他自创了三种解法,比你还会。
团队玩的是“零依赖”训练,DeepSeek-R1-Zero版本完全放飞。
模型答题时突然卡壳,然后像被老师盯上的学生,开始自言自语:“等等,这步是不是反了?
”接着倒回去重算。
这种“顿悟时刻”不是编的,是训练日志里实打实出现的。
它甚至会给自己出三种方案,最后挑个最顺眼的,像极了选择困难症发作的我们。
当然,裸奔的Zero版本说话有点生硬,像刚学中文的外国人。
于是团队搞了套“回炉重造”流程:先冷启动微调,再两轮强化学习,最后灌海量对话数据。
效果立竿见影,AlpacaEval测试直接涨17%,聊天时不再像个背词典的机器人。
技术细节也野得很。
传统PPO算法被嫌弃太慢,团队直接换成GRPO,让模型组内PK,赢的拿奖励,输的反思。
奖励机制更鸡贼:数学题按步骤给分,通用任务用AI评委打分,防止它耍小聪明。
训练文本长度翻倍到6.5万Token,相当于让它读完《三体》全集再写读后感。
不过别急着吹爆。
这货现在像个偏科天才,数学题秒解,但让它写个带表格的会议纪要就抓瞎。
对提示词敏感得像青春期小孩,换种问法就懵。
更尴尬的是,遇到复杂编程任务,强化学习容易陷入“奖励迷宫”,转半天找不到出口。
争议也有,比如有人怀疑它偷学了ChatGPT的作业。
团队甩出训练日志:基础模型确实扫过网络数据,但推理能力纯粹靠“答对给糖”练出来的。
Nature审稿人挺毒舌的,但这次罕见地用了“范式突破”这种词。
说到底,这事儿给行业打了个样:原来砸钱不是唯一解,换条思路也能跑通。
就像做饭,别人用松露鲍鱼,你拿剩菜炒出米其林味道,这才是真本事。
下次遇到“AI必须烧钱”的论调,直接把这篇论文甩过去。
来源:走进科技生活