Kimi K1.5 解析

B站影视 2025-01-24 01:43 2

摘要:今天阅读完了Kimi k1.5 模型paper,整体读完之后的感受是 Kimi k1.5 是DeepSeek R1 的一个特例,主要思路还是围绕着如何生成高质量的Long-CoT 数据,k1.5 使用的强化学习算法思路是带基线的 Reinforce 算法,目标

今天阅读完了Kimi k1.5 模型paper,整体读完之后的感受是 Kimi k1.5 是DeepSeek R1 的一个特例,主要思路还是围绕着如何生成高质量的Long-CoT 数据,k1.5 使用的强化学习算法思路是带基线的 Reinforce 算法,目标是优化策略梯度,奖励最大:

y 为模型输出响应response,y* 表示ground truth,数据真实答案

最终优化公式如下:

最终优化公式

然后看下k1.5 整体RL训练基础设施架构图:

整体看下来公式推导,其应用的就是Reinforce Learning 中的 带基线的 Reinforce 算法;

整体上 k1.5 模型,经过如下几个步骤训练完成:

第一阶段:利用Long-CoT 做SFT 微调,让模型具备初步的CoT 输出能力;

第二阶段:基于策略梯度Reinforce Learning 算法,其中涉及一个概念带镜像策略梯度 下降优化算法,搬运工认为镜像体现在采样使用的策略函数,采样的策略函数是前一步生成策略;用采样产生的数据,来优化出新的策略,这一个步骤反复进行;这里采样算法有:Curriculum Sampling、Prioritized Sampling 两种策略,具体将会在后续的文章中进行介绍。

第三阶段:Long2short: Context Compression for Short-CoT Models,这里论文中对比了 Model Merging、Shortest Rejection Sampling、DPO、Long2short RL 几种解决方案;最终实践效果是Long2short RL;这阶段的RL 在奖励函数上对长度进行了惩罚,本质上是希望我们促进较短的响应,并对较长的正确响应进行惩罚,同时对错误答案的长响应进行明确惩罚。

当然 k1.5 的更多技术细节建议读者参考 《KIMI K1.5:SCALING REINFORCEMENT LEARNING WITH LLMS 》论文原文,今天的分享就到这里,关注AIGC-LANDING,搬运工将会给您带来更为前沿的技术解读。

来源:AIGC-LANDING

相关推荐