7GB显存小模型也能“顿悟”!DeepSeek又显神
今天,我们很高兴在 Unsloth 里加入“推理”这个新功能!DeepSeek 的 R1 研究发现了一个“顿悟时刻”——R1-Zero 通过一种叫“组相对策略优化(GRPO)”的方法,自己学会了分配更多的思考时间,而不需要人来给反馈。
今天,我们很高兴在 Unsloth 里加入“推理”这个新功能!DeepSeek 的 R1 研究发现了一个“顿悟时刻”——R1-Zero 通过一种叫“组相对策略优化(GRPO)”的方法,自己学会了分配更多的思考时间,而不需要人来给反馈。