msra

MSRA清北推出强化预训练！取代传统自监督，14B模型媲美32B

微软亚洲研究院（MSRA）联合清华大学、北京大学提出全新预训练范式RPT（强化预训练），首次将强化学习深度融入预训练阶段，让模型在预测每个token前都能先“动脑推理”，并根据推理正确性获得奖励。