摘要:在OpenAI连续12天的技术发布会上,一项名为RFT(Reinforcement-based Fine-Tuning,基于强化学习的微调)的新型训练方法引发全球关注。该方法通过结合强化学习与监督微调,仅需少量标注数据即可显著提升模型在特定场景下的性能。2月2
OpenAI发布会引爆RFT技术
千帆ModelBuilder率先落地!
在OpenAI连续12天的技术发布会上,一项名为RFT(Reinforcement-based Fine-Tuning,基于强化学习的微调)的新型训练方法引发全球关注。该方法通过结合强化学习与监督微调,仅需少量标注数据即可显著提升模型在特定场景下的性能。2月28日,百度智能云千帆ModelBuilder成为了国内首个全面支持RFT训练方法的大模型开发平台,为企业开发者提供更高效、低成本的大模型开发模式,进一步降低生成式AI应用落地的门槛。
什么是RFT:大模型高效训练的新范式
RFT融合了强化学习(RL)和微调(Fine-tuning)技术,突破了传统训练依赖大量人工标注偏好数据的局限,借助Grader比较模型Response和Reference进行打分(0-1),自动分配奖励信号,驱动模型优化。
这一训练方式的优势在于,AI可以自己思考,强化导致正确答案的思维路径、抑制导致错误的思维路径,可以在用户的少量专业数据中完成推理,从而完成强化学习,迅速达到细分领域的专家水平。
RFT融合强化学习(RL)与监督微调(SFT),通过以下机制突破传统训练瓶颈:
奖励信号自动化引入Grader模块(基于规则或参考答案的评分器),对比模型输出与参考答案(Reference),自动生成0-1分值的量化奖励信号,替代人工偏好标注。策略优化智能化基于PPO算法构建强化学习框架,驱动模型通过自主探索优化输出策略,避免传统SFT的局部最优局限。
千帆ModelBuilder RFT训练全流程解析:
RFT如何让模型实现“思维跃迁”
在千帆ModelBuilder的实测中,RFT展现出"超强增效"特性:
数据效率:复杂场景下,仅需4500条训练数据即可完成训练,并保证模型效果。泛化能力:在3-8人复杂度递增的"好人/坏人"推理场景中,平均准确率相比base模型提升29%。
训练天花板:在复杂问题场景下,RFT的训练能力天花板更高。
那上面的3点内容我们是如何得出的结论呢,我们以平台上真实测评的逻辑推理场景-“谁是好人”来进行揭秘!
首先来看看案例背景:
什么是逻辑推理场景——“谁是好人”?
在虚构的“坏人与好人”推理问题中,模型需分析角色陈述的真伪,推断出“好人”与“坏人”的身份。此类问题考验模型的逻辑一致性分析与数学推理能力。我们用一个具体query来展示下该场景:
可以看到,在上述的case模型的输出中,思考过程已经逐渐混乱,并且题目本身需要区分3个人的身份,在最终答案中模型只给出2个人的身份结论,并未有效的推理出该问题。那我们对模型进一步进行RFT,希望能解决模型输出准确性问题。
千帆ModelBuilder上的RFT训练三步曲
Step 1:创建RFT训练任务
在千帆ModelBuilder上,选择「模型精调」→「偏好对齐」→「RFT」,并选择base模型DeepSeek-R1-Distill-Qwen-7B,同时配置奖励规则(平台预置四种规则,奖励规则中定义了如何评估模型输出效果的规则)。
选择训练方法
奖励规则配置
Step 2:准备训练数据
采用开源数据集K-and-K/knights-and-knaves(约4,500条数据);平台数据配置中,数据格式需包含Prompt(问题)与Response(参考答案)。
数据配置要求:Prompt+Response格式
Step 3:模型部署与效果快速评估
配置成功后,在平台即可一键开启模型训练,训练完成后一键部署至千帆ModelBuilder,同时平台支持创建自动评估任务,通过ERNIE-4.0-Turbo作为裁判员模型并自定义评估指标,快速得到模型评估结果。
效果验证——RFT“超强增效”:
训练后的模型回答准确率大幅提升,
超越OpenAI o1模型!
整个训练过程,我们基于百度智能云千帆ModelBuilder平台,利用base模型DeepSeek-R1-Distill-Qwen-7B使用约4500条少量数据,完成RFT训练;根据回答准确率以及case示例分析,我们得出2个关键结论。
关键结论1——准确率跃升,训练天花板更高:在3-8人复杂度递增的场景中,RFT后的DeepSeek-R1-Distill-Qwen-7B平均准确率提升29%,超越了OpenAI o1;同时我们也对比了SFT-全量更新后的模型回答准确率,发现在逻辑推理场景下,RFT的效果提升更显著,训练天花板更高。
RFT后的模型与base模型、OpenAI o1回答准确率对比
关键结论2——泛化能力增强:RFT前Base模型的输出答案以及思考过程均有明显错误,并且当题目难度越高的时候甚至模型回答语言已经错乱;而RFT后,模型输出的答案准确,思考过程也更加清晰。
简单问题:
一个非常特殊的岛屿上只有好人和坏人居住。好人总是说真话,坏人总是说谎。你遇到三个居民:杰克、塞巴斯蒂安和詹姆斯。据杰克说:“詹姆斯是好人且杰克是好人。”塞巴斯蒂安评论道:“杰克是坏人且詹姆斯是坏人。”詹姆斯说:“塞巴斯蒂安是好人,仅当他是坏人时成立。”那么谁是好人,谁是坏人?
复杂问题:
一个非常特殊的岛屿上只居住着好人和坏人。好人总是讲真话,坏人总是说谎。你遇到了7个居民:Isabella、Mason、Ella、Harper、Daniel、David 和 Michael。根据Isabella的说法,“David是一个好人”。Mason提到,“Daniel不是一个好人”。Ella说,“Mason不是一个坏人”。Harper的话是:“Daniel是一个好人,David是一个好人”。Daniel说,David是一个好人或者David是一个坏人。David说,“如果Ella是一个好人,那么Daniel是一个坏人。” Michael说,“如果Harper是一个好人,那么Daniel是一个坏人”。那么,谁是好人,谁是坏人?
来源:百度智能云官方