大模型的新战场在推理?——《推理模型综合测评报告 2025》深度解析 | 直播预告

B站影视 日本电影 2025-06-04 16:38 1

摘要:5 月 29 日,InfoQ 研究中心正式对外发布了《推理模型综合测评报告 2025》。在报告中,InfoQ 研究中心通过五大维度(逻辑推理、数学推理、多步推理、语言推理、幻觉控制),五大题型(判断、选择、填空、排序、开放题)的 300 道测试题组成的题库,对

5 月 29 日,InfoQ 研究中心正式对外发布了《推理模型综合测评报告 2025》。在报告中,InfoQ 研究中心通过五大维度(逻辑推理、数学推理、多步推理、语言推理、幻觉控制),五大题型(判断、选择、填空、排序、开放题)的 300 道测试题组成的题库,对现有的八家主流推理模型进行了全面测评。

推理模型综合测评体系说明

在报告中,我们也对各个维度不同模型的表现进行了总结,o3 在数学推理和多步推理两项位居榜首,文心 X1 Turbo 则在幻觉控制和语言推理两项位居第一,Qwen3-235B-A22B 在逻辑推理维度表现最佳。

评测各维度 Top5 模型得分情况

为了更好的向各位开发者朋友展现报告内容和测评结果,InfoQ 研究中心专门针对报告,设置了一场直播活动。在本次直播中,InfoQ 研究中心高级分析师崔白洁也将深入解读本次测评体系的设计思路,欢迎各位开发者伙伴点击文中 「预约」按钮,锁定 6 月 6 日 20:00 的报告专场直播活动,获取直播提醒。

直播主题

大模型的新战场在推理?

——《推理模型综合测评报告 2025》深度解析

直播时间

6 月 6 日 20:00-20:50

从两大技术前置因素出发,盘点推理模型的前世今生

300 道测试题实测 8 大主流推理模型,关键结果解读

三大方向,讨论推理模型的未来会走向何方?

直播观看渠道

提问 / 互动方式

文末留言写下问题,或在直播中直接评论,主持人会在直播的 Q&A 环节进行集中解答。

来源:InfoQ

相关推荐