大模型的新战场在推理？——《推理模型综合测评报告 2025》深度解析

摘要：5 月 29 日，InfoQ 研究中心正式对外发布了《推理模型综合测评报告 2025》。在报告中，InfoQ 研究中心通过五大维度（逻辑推理、数学推理、多步推理、语言推理、幻觉控制），五大题型（判断、选择、填空、排序、开放题）的 300 道测试题组成的题库，对

5 月 29 日，InfoQ 研究中心正式对外发布了《推理模型综合测评报告 2025》。在报告中，InfoQ 研究中心通过五大维度（逻辑推理、数学推理、多步推理、语言推理、幻觉控制），五大题型（判断、选择、填空、排序、开放题）的 300 道测试题组成的题库，对现有的八家主流推理模型进行了全面测评。

推理模型综合测评体系说明

在报告中，我们也对各个维度不同模型的表现进行了总结，o3 在数学推理和多步推理两项位居榜首，文心 X1 Turbo 则在幻觉控制和语言推理两项位居第一，Qwen3-235B-A22B 在逻辑推理维度表现最佳。

评测各维度 Top5 模型得分情况

为了更好的向各位开发者朋友展现报告内容和测评结果，InfoQ 研究中心专门针对报告，设置了一场直播活动。在本次直播中，InfoQ 研究中心高级分析师崔白洁也将深入解读本次测评体系的设计思路，欢迎各位开发者伙伴点击文中 「预约」按钮，锁定 6 月 6 日 20:00 的报告专场直播活动，获取直播提醒。

直播主题

大模型的新战场在推理？

——《推理模型综合测评报告 2025》深度解析

直播时间

6 月 6 日 20:00-20:50

从两大技术前置因素出发，盘点推理模型的前世今生

300 道测试题实测 8 大主流推理模型，关键结果解读

三大方向，讨论推理模型的未来会走向何方？

直播观看渠道

提问 / 互动方式

文末留言写下问题，或在直播中直接评论，主持人会在直播的 Q&A 环节进行集中解答。

来源：InfoQ