摘要:继DeepSeek-R1开源发布之后,国内多家企业陆续研发和上线了深度推理大模型。“巢燧”大模型基准测试密切追踪国内深度推理大模型最新进展,近期,红星新闻联合天津大学自然语言处理实验室,依托“燧观”大模型智能测试平台,开展“巢燧”大模型基准综合评测第三次评测,
继DeepSeek-R1开源发布之后,国内多家企业陆续研发和上线了深度推理大模型。“巢燧”大模型基准测试密切追踪国内深度推理大模型最新进展,近期,红星新闻联合天津大学自然语言处理实验室,依托“燧观”大模型智能测试平台,开展“巢燧”大模型基准综合评测第三次评测,对国内几款主流深度推理大模型进行了系统评测,覆盖数学、多步推理、代码三大维度。希望通过系统而全面的推理大模型评测,为中国AI发展提供关键数据,实现AI智善和谐发展。
本次报告涉及的模型包括DeepSeek-R1,Spark X1,Hunyuan-T1,GLM-Z1-Air,QwQ-32B-Preview,ERNIE-X1 Turbo(32K)六个国产深度推理大模型。因近期部分大模型进行了版本更新或API调用问题,本次评测未覆盖所有模型,后期将同步进行下一次全面评测。
采用多维度精选任务开展推理能力测评
此次评测聚焦于多步推理、数学复杂推理、代码推理三大推理维度,对深度推理大模型展开全面评测。
(1)数学复杂推理任务
该评测任务采用高考数学复杂推理数据,评测数据来源于2024年1月至2024年5月的高考数学预测试卷以及模拟试卷,减少了数据污染的影响。该数据集具备充足的题目数量与丰富的内容,评测所使用的4100题覆盖7个难度等级和8种题目类型:基本初等函数与导数推理、三角函数与解三角形推理、平面解析几何推理、数列推理、立体几何与空间向量推理、计数原理推理、统计与概率推理、其他数学推理(涵盖逻辑、集合、不等式、复数)。该数据集一些难度较大的题目答案解析超过2000字符,具备测试模型复杂数学推理的能力。
(2)多步推理任务(C2RBench)
本任务来自中文复杂推理测试基准C2RBench,该基准旨在系统评估大模型在多步、多模态高级推理任务中的实际表现。C²RBench共包含1115道精心设计的中文任务,涵盖八个贴近真实推理需求的领域子集,各子集任务均以模拟真实问题为导向。该基准采用层级难度分级设置,依据推理步骤数量划分为三级任务,平均每个任务涉及8.44个推理步骤,显著高于现有基准在认知复杂度方面的设定。此次评测采用C2RBench两个领域子集,即逻辑多步推理、通用知识多步推理。测试数据集最⼤的特点在于:每一个测试样例都由较长的一系列推理操作组成。按照完成任务所需要的推理步数,该数据集测试样例又可分为三个难度级别:Level1(3-6步推理)、Level2(7-11步推理)、Level3(12步以上推理)。
(3)程序设计代码推理任务(ProBench)
ProBench是一个用于评测大模型程序设计代码推理能力的数据集,测试题目来源于Codeforces、洛谷(Luogu)和牛客网(Nowcoder)三个主流编程竞赛平台。ProBench_v2版本收录了比赛时间在2025年1月1日至2025年5月13日之间的最新竞赛题目。为避免数据污染,所有题目均为该时间段内的新题,题目描述包含中文和英文描述。此次评测采用收集的504道标注有难度等级的题目,涵盖了多种算法类型,包括基础算法、字符串、数学、图论、数据结构、搜索和动态规划等,难度等级划分为简单、中等和困难。大模型在处理简单难度等级测试题时平均需要生成12K词元,而回答中等及困难题目,需要平均生存22K词元,显示出该数据集在推理深度和计算负载方面的挑战性。
国内深度推理大模型整体有显著进步
基于巢燧基准评测推理综合测试评分结果,多款国内深度推理大模型,如DeepSeekR1、讯飞星火X1、腾讯混元T1、智谱Z1,综合分数超过或接近60,反映出国内深度推理大模型在最近几个月取得了显著进展。
从整体测评得分看,DeepSeek整体处于领先状态,讯飞星火X1,本次以少许优势超过了混元T1和智谱Z1,依次为本次测评的第二、三、四名。国内模型之间能力竞争非常激烈。
特别说明,本次评测中,DeepSeek-R1采用2025年5月28日发布版本,Hunyuan-T1采用2025年5月21日发布版本,Spark X1为2025年4月20日发布版本,GLM-Z1-Air为2025年4月15日发布版本, QwQ-32B-Preview为2024年11月28日发布版本,ERNIE-X1 Turbo(32K)为2025年4月25日发布版本。
基于本次测评结果,可以看到以下趋势和结论:
(1)相比去年11月发布的QwQ-32B-Preview,今年发布的大部分深度推理大模型均大幅提升了数学推理能力,最好结果超过70%;排名前四的模型准确率较为接近,说明当前头部深度推理大模型在数学推理能力上处于相近水平,竞争格局极为激烈。
(2)在多步推理任务上,领先模型间差距缩小,竞争激烈,排名靠前的DeepSeek-R1、Spark X1、Hunyuan-T1准确率接近,竞争日益白热化。细微差距可能来源于对特定推理类别的针对性优化,或者推理过程中的错误纠正机制不同。
(3)在多步推理细分任务-逻辑多步推理任务上,国内深度推理大模型表现亮眼。模型在中低难度逻辑推理上的处理能力较强,随着推理难度提升,准确率有所下降,特别是Level3准确率下降较厉害,体现出所需推理步数加长带来的挑战。
(4)相比于逻辑多步推理,多步推理细分任务通用知识多步推理仍面临显著瓶颈,整体准确率低于逻辑推理,且不同模型间差异明显。各深度推理大模型准确率呈现较为明显的阶梯形分布,前三名模型准确率均集中在60%~71%区间,体现头部模型的整体竞争力和技术成熟度。
(5)在程序设计代码推理方面,DeepSeek-R1显著领先其他深度推理大模型,但所有模型的得分均较低,表明在程序设计代码推理任务上仍然有很大的提升空间。
结语
2025年上半年,国内深度推理大模型在多项关键任务中展现出显著进展,整体技术水平稳步提升。在多步逻辑推理任务中,整体准确率大幅提升,且领先模型之间的差距不断缩小;在高考数学复杂推理任务中,头部模型相较去年实现跃进式提升,表现出深度推理能力的显著增强;而在程序设计代码推理这一难度更高的推理任务中,不同模型之间的技术分层更加明显。相信国内深度推理大模型在接下来的时间里,将会进一步快速迭代,期待在下一次的测评中看到国产深度推理模型更加优秀的表现。
红星新闻记者 李伟铭
(下载红星新闻,报料有奖!)
来源:红星新闻