摘要:官方表示,在 AIME 和 Math 等数学基准测试上,Step Reasoner mini 的成绩超过了 o1-preview,比肩 OpenAI o1-mini。在 LiveCodeBench 代码任务上,也比 o1-preview 效果更佳。
IT之家 1 月 17 日消息,阶跃星辰昨日(1 月 16 日)宣布,自研推理模型 Step Reasoner mini(简称 Step R-mini )上线。
官方表示,在 AIME 和 Math 等数学基准测试上,Step Reasoner mini 的成绩超过了 o1-preview,比肩 OpenAI o1-mini。在 LiveCodeBench 代码任务上,也比 o1-preview 效果更佳。
Step Reasoner mini 通过大规模的强化学习训练,并使用 On-Policy(同策略)强化学习算法,实现了“文理兼修”。Step Reasoner mini 除了能准确解答数学、代码、逻辑推理问题,还能富有创意地完成文学内容创作和日常聊天的任务。
IT之家附体验链接:https://yuewen.cn
来源:IT之家
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!