让Qwen2.5 7B超越o1,微软干的!MSRA新出小模型数学推理进化方法 通过代码增强CoT、蒙特卡洛树搜索(MCTS)等,rStar-Math能让小·大模型在不依赖蒸馏教师模型的情况下,通过多轮自我进化的深度思维,掌握数学推理。 模型 推理 msra 2025-01-10 11:42 3