MSRA清北推出强化预训练!取代传统自监督,14B模型媲美32B 微软亚洲研究院(MSRA)联合清华大学、北京大学提出全新预训练范式RPT(强化预训练),首次将强化学习深度融入预训练阶段,让模型在预测每个token前都能先“动脑推理”,并根据推理正确性获得奖励。 训练 模型 llm rpt msra 2025-06-11 16:32 2