摘要:后训练(Post-Training)是指在预训练模型的基础上,针对特定的任务或数据集进行额外的训练。这个阶段通常涉及到微调(Fine-tuning)和对齐 (Alignment),即调整预训练模型的参数以适应新的任务。
本文探讨了后训练的重要性、方法以及最新进展。文章将包含理论分析与实际操作指南,适合希望深入了解并应用这些技术的开发者。
后训练(Post-Training)是指在预训练模型的基础上,针对特定的任务或数据集进行额外的训练。这个阶段通常涉及到微调(Fine-tuning)和对齐 (Alignment),即调整预训练模型的参数以适应新的任务。
黑色: 预训练阶段
红色: 后训练阶段
紫色: 推理测试阶段
Post-training重要性-后训练扩展律Post-training scaling laws 已经出现
Pre-traing阶段的scaling law
GPT(Generative Pretrained Transformer)系列是典型的自回归语言模型。在 GPT 模型中,它的生成过程是基于自回归机制。例如,在文本生成任务中,给定一个初始的输入文本序列(可以是一个单词、一个句子或一段话),模型会预测下一个单词出现的概率分布。假设输入序列是 “The cat”,模型会计算在这个序列之后不同单词(如 “runs”“jumps”“sleeps” 等)出现的概率,然后从这个概率分布中采样一个单词作为下一个生成的单词。
随着训练时的计算量和测试时的计算量的增加,模型性能也会随之提升。
这里以Llama 3来示例:
1.持续通过人工标注或机造方式生成偏好pair样本,训练Reward Model;
2.基于当前能力最好的模型,随机采集一批 {Prompt} ,每个Prompt拿最好的模型做 K 次数据生成采样,每个Prompt就得到 K 条
数据;
3.拒绝采样:对第2步采样 K 个
数据,用Reward Model打分,并从中选取打分最高 topN 条样本。作为指令微调的精选样本,训练SFT Model;
4.训完SFT Model,再通过持续收集的偏好对样本(同步骤1)做对齐学习(Llama使用的是DPO)。最终得到了一个比当前模型更好的模型;
5.持续做步骤1~步骤4,飞轮迭代优化模型。
采样模型多次,让RM选出最好的回复,作为SFT data的一部分。部分细节如下:
采样什么模型?两种情况。迭代中表现Avg score最好的模型,或者在某个particular capability上表现最好的模型。采样多少次?K=10~30,即一般采样10-30次。prompt哪来?人工标注的prompts。并在后训练迭代后期引入特殊的system prompts。微调是指在预训练模型的基础上,使用特定任务的数据集进行进一步训练,以使模型适应特定任务或领域。其目的是优化模型在特定任务上的性能,使模型能够更好地适应和完成特定领域的任务。
全量微调 VS 部分微调
全量微调 Full Fine-Tuning,FFT
是指在预训练模型的基础上,使用特定任务的数据集对模型的所有参数进行进一步训练,以使模型更好地适应特定任务或领域的过程。
部分微调 PEFT(parameter-efficient fine-tuning)参数高效微调
一种针对大型预训练模型的微调技术,旨在减少训练参数的数量,从而降低计算和存储成本,同时保持或提升模型性能仅微调模型中的一小部分参数,常见方法如下:
选择参数子集重新参数化LoRA(Low-Rank Adaptation) 使用低秩表示重新参数化模型权重核心思想是将权重矩阵 W 分解为两个低秩矩阵 A 和 B 的乘积,即:对齐是指通过各种技术手段,使模型的输出与人类的偏好和价值观对齐,确保模型的行为和决策符合人类社会的期望和标准。对齐技术旨在解决模型可能带来的潜在问题,如生成有害内容、不符合伦理的输出等。强化学习是实现模型对齐的核心工具,即可通过人类反馈强化学习(RLHF)(Reinforcement Learning from Human Feedback)的方式,通过训练奖励模型对齐模型输出与人类偏好,强化学习中需要用到的关键组成部分如下
1. 带有人类偏好反馈的标签数据
2. 奖励模型(Reward Model)-> 奖励信号
Rule-based RMModel-based RM3. 强化学习策略优化算法
DPO (Direct Preference Optimization) 直接偏好优化PPO (Proximal Policy Optimization)近端策略优化GRPO(Group Relative Policy Optimization)组内相关策略优化算法RHLF即基于人类反馈的强化学习的训练流程中的涉及到的策略优化算法,常见的有以下几种:
优化过程是构建一个损失函数, 需要根据奖励模型的奖励信号和新旧策略差异计算损失函数,并且会限制策略更新的幅度,保证了模型的稳定性。损失函数:强化学习 RM(Reward Model)奖励模型的优化思路
在传统的强化学习RL框架中,智能体通过与环境的交互来学习,以最大化累积奖励。但这种方法有时会面临奖励设计困难和学习效率低下的问题。为了解决这些难题,RLHF (Reinforcement Learning from Human Feedback)引入人类作为奖励信号的来源。人类反馈可以采取多种形式,包括直接的奖励信号、排名反馈、偏好比较等。
LLM as a judge:判别式的RM的准确率不足,可以用于事实性,输出风格等的判定;Generative RM:先CoT自然语言推断的,再给出奖励信号,Let's verfify step by step ;Critic Model:随着大模型的不断迭代,其输出的内容越来越准确,错误也变得更加隐蔽,就算是专业的AI训练师也很难察觉那些错误所在,open ai训练了CriticGPT这种谈论家模型,用于加强RLHF,但注意用model去建模reward,可能会因为过度对齐人类的偏好而引入bias;Outcome-based Reward Model(ORM) 到 Process-based Reward Model(PRM) 向着模型能生成正确的推理能力的方式去优化PRM:过程奖励模型,是在生成过程中,分步骤,对每一步进行打分,是更细粒度的奖励模型。ORM:结果奖励模型,是不管推理有多少步,对完整的生成结果进行一次打分,是一个反馈更稀疏的奖励模型。注意reward model可能会被hacking的问题,可以将不同的reward model混在一起训练, 让模型训多轮后也比较难找到RM的漏洞。
系统1思维:一次性生成完整解法的方法Next Token Prediction 缺乏详细的中间推理步骤,模型一开始可能会犯错,错误会传播导致最终生成的答案也是错的;系统2思维: 模仿人类通过更慢,更深的思考过程进行推理CoT: Training-Free的方式, 通过分步的方式生成一系列中间推理步骤,从而提升模型推理能力;Let's think step by step ;Best of N ;MCTS (Monte Carlo Tree Search 蒙特卡洛树搜索) : 在Token或字句级别分解建模成节点后提供奖励信息(Process-based-Reward-Model);Token级别的节点:每个节点对应生成序列中的一个Token。通过MCTS,模型可以探索不同的Token序列,最终生成更连贯的响应;句子级别的节点:在复杂推理任务中,每个节点可以代表一个完整的句子或推理步骤,帮忙模型更好地处理多步推理任务;STaR(Self - Taught Reasoner) :教会模型从内部深入思考问题与答案的关联;STaR 的核心思路是利用 LLM 已有的推理能力,迭代式的引导模型产生合理推理过程 (Rationales) 的能力,井将 Rationales 融入到训练过程内,让模型学会进行推理;通过few shot example 来prompt模型生成答案和推理过程,过滤出正确的数据集生成微调数据集来微调;SFT->示范给模型怎么样做是对的
RL->在环境中不断的试错,累积奖励,理论上RL能榨干模型,能突破人类的上限,但reward要能写好
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training
RL 在泛化方面的优势:RL,特别是在基于结果的奖励下进行训练时,能够在基于规则的文本和视觉变体中实现泛化。这表明强化学习在处理不同情境和变化时具有更强的适应能力。强化学习通过与环境的交互不断调整策略,从而能够学习到更通用的知识和行为模式。SFT 在记忆方面的倾向:SFT 则倾向于记忆训练数据,在分布外的场景中难以很好地泛化。这是因为监督微调主要是通过最小化预测与真实标签之间的误差来调整模型参数,容易使模型过度拟合训练数据。SFT 对 RL 训练的重要性:尽管 RL 在泛化方面表现出色,但文章指出 SFT 对于有效的 RL 训练仍然至关重要。SFT 能够稳定模型的输出格式,为后续的 RL 训练奠定基础。没有经过 SFT 的模型可能在输出格式上不稳定,导致 RL 训练难以收敛或效果不佳。
DeepSeek-R1
给后续的推理模型后训练很多启发,仅RL也可以得到非常好的推理效果。
总结附:Scaling Laws for Neural Language Models:https://link.zhihu.com/?target=https://arxiv.org/abs/2001.08361resoning-llms:https://magazine.sebastianraschka.com/p/understanding-reasoning-llms(NeurIPS tutorial)大模型后训练现状 by Nathan Lambert:https://www.interconnects.ai/p/the-state-of-post-training-2025Llama3.1,DeepSeek-V3,TÜLU 3,Qwen2.5后训练合集:https://zhuanlan.zhihu.com/p/12862210431The Llama 3 Herd of Models:https://arxiv.org/pdf/2407.21783Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters:https://arxiv.org/pdf/2408.03314QWEN2 TECHNICAL REPORT:https://arxiv.org/pdf/2407.10671DeepSeek R1 Zero:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdfopenai O1 解读:https://zhuanlan.zhihu.com/p/721952915openai O1:https://openai.com/index/learning-to-reason-with-llms/Critic GPT:https://arxiv.org/pdf/2407.00215微调实践:https://study.antgroup-inc.cn/learn/course/842000013/content/990000093/990000095?tenant=metastudy基于 RAGFlow 构建私有知识问答应用
传统 RAG 应用因文档解析能力不足,导致相关问题的回答失准。RAGFlow 凭借创新的深度文档理解技术,能精准解析各类复杂格式的原始数据,提升回答准确性。本方案介绍如何一键部署 RAGFlow 并构建私有知识问答应用,无需编码,最快 10 分钟、最低 2 元即可实现。
基于 RAGFlow 构建私有知识问答应用-阿里云技术解决方案查看详情。
来源:阿里技术一点号