清华、智谱团队:探索 RLHF 的 scaling laws
数据的多样性和规模:增加训练数据的多样性和数量能够显著提升奖励模型(RM)的性能;策略训练的效率:初期增加响应样本能够提高策略训练效果,但收益会迅速趋于平稳;RLHF 的 scaling 效率低于预训练:RLHF 的计算资源投入带来的回报递减,整体 scali
rlhf laws scalinglaws 2024-12-24 11:50 3
数据的多样性和规模:增加训练数据的多样性和数量能够显著提升奖励模型(RM)的性能;策略训练的效率:初期增加响应样本能够提高策略训练效果,但收益会迅速趋于平稳;RLHF 的 scaling 效率低于预训练:RLHF 的计算资源投入带来的回报递减,整体 scali
rlhf laws scalinglaws 2024-12-24 11:50 3
指依照法规、协议、决定等行事,含即使不同意也必须接受并服从之意。这个短语的主语总是遵守这个动作的施动者。没有被动语态。