超低成本复现QwQ!数学推理模型训练迎来RL暴击,数据代码全开源 除了前面提到的7B模型,在32B模型上,只需两百美元、200条数据,就可以轻松复现QwQ-32B,就是数学推理能力媲美DeepSeek-R1,一战封神的那个。 开源 推理模型 rl 推理模型训练 数学推理模型 2025-04-01 10:58 2