摘要:在当今人工智能迅猛发展的浪潮中,大模型的竞争愈发激烈,尤其是推理模型领域,成为众多研究与评测的焦点。OpenAI 发布的 o1 系列模型曾掀起大模型革新的热潮,深度学习模型在解决复杂问题上的能力日益提升,特别是在数学、物理等科学领域的应用中取得了显著成就。而国
谁是 OpenAI o1 推理类模型方向的挑战者?
在当今人工智能迅猛发展的浪潮中,大模型的竞争愈发激烈,尤其是推理模型领域,成为众多研究与评测的焦点。OpenAI 发布的 o1 系列模型曾掀起大模型革新的热潮,深度学习模型在解决复杂问题上的能力日益提升,特别是在数学、物理等科学领域的应用中取得了显著成就。而国产模型也在不断崛起,试图在这一领域占据重要地位。各类新型评测社区的出现,为模型的综合能力的评估提供了参考,推动着模型的不断优化与创新。
对于这些模型的实际性能及其在特定任务上的适用性,学术界与工业界一直保持着高度关注。为了更准确地评价这些模型的能力,特别是它们在处理复杂推理问题时的表现,国内以上海交通大学、同济大学等高校为主导的AGI-Eval组织了一系列严格而系统的评测活动。本研究将聚焦于其中一部分——数学与代码竞赛题目的评测结果,分析最新发布的推理类模型之间的差异以及它们各自的优势所在,其中包括OpenAI的o1、上海人工智能实验室的InternThinker-Alpha、DeepSeek的DeepSeek-R1-Lite、月之暗面 k0-math 、阿里巴巴QwQ-32B-Preview等最新模型。
此次参评的推理模型和o1的推理链路比较类似,主要通过增加推理时间和推理tokens数量,模拟人类的思考和反思过程,显著增强其推理能力。如下图的推理策略,模型在解决问题时多采用链式推理策略,并对复杂任务进行自我纠错,经过这样的引导使模型在解决复杂任务时自发使用“回忆知识-解答”,“执行-反思”等策略组合,模型在解题过程中会花费更多时间和tokens进行推理,提高答题的成功率。
InternThinker-Alpha发布的思考路径图
评测重点考察推理模型在数学和代码上的推理能力。考虑到现在的大模型已经具备很强的记忆力能力,当评测数据被直接开源,评测数据就很容易出现“数据穿越”的问题,因此AGI-Eval通过专业的方式收集数据,并于知名高校合作等方式构建了高质量的黑盒评测数据。
1 数学竞赛题目评测与推理过程分析
「高难度数学」评测集采用了来自全国高中数学联合竞赛、美国数学邀请赛(AIME)、全国硕士研究生招生考试等多个来源的真实试题作为基准数据集。这些题目不仅涵盖了广泛的数学知识点,而且具有较高的难度系数,能够有效测试模型的推理能力和解题技巧。从题型分布上看,各模型考研数学题正确率高于高中数学竞赛题10%,提示考研数学题目难度相对简单。评测过程中,各参评模型被要求独立完成所有给定题目,并记录下其解答过程中的各项参数,包括但不限于推理时间、使用的token数量等。此外,为了保证评测结果的公平性和透明度,所有数据均经过了严格的预处理和清洗流程,确保没有任何偏差影响最终结论。
其中,阿里巴巴最新的 QwQ-32B-Preview 在难度相对较低的考研数学题方面正确率达到0.833,优势占比明显。而整体准确率上,DeepSeek-R1-Lite以0.667的正确率位列国内模型第一,超越OpenAI 的标杆o1-preview模型,但仍然低于o1-mini。不久前,Sam Altman曾表示o1在美国数学奥林匹克 (AIME) 预选赛题目中能跻身美国前500名学生之列,而此次评测也采用了AIME1/2的题目。
榜单链接:https://agi-eval.cn/evaluation/advanced-mathematics
除了推出评测榜单以外,AGI-Eval也从模型的推理过程中,发现了一些有意思的现象。
同类的几个推理模型都有自我纠错环节,检查推理步骤并进行二次验证,当发现推理思路不对,会换个思路继续推理。
DeepSeek-R1
设f(x)是定义域为R、最小正周期为5的函数.若函数g(x)=f(2^x)在区间[0,5)上的零点个数为25,则g(x)在区间[1,4)上的零点个数为
思维链路:
wait, 这样算好像不太对。
我应该重新考虑。对于每个 \( k \),\( a_i + 5k \in [1, 32) \),且 \( a_i \in [0, 5) \)。
所以,对于 \( k=0 \):\( 0+0=0 \) 到 \( 5+0=5 \),要 \( \geq 1 \),所以 \( a_i \in [1, 5) \) \( \Rightarrow \) 解为 \( x \) 满足 \( 2^x = a_i + 0 \Rightarrow x = \log_2(a_i) \)。
\( k=1 \):\( a_i + 5 \in [5, 10) \),要 \( \geq 1 \),即全部满足,因为 \( 5 \geq 1 \)。
所以 \( a_i \in [0, 5) \)。
\( k=2 \):\( a_i + 10 \in [10, 15) \),要 \( \geq 1 \),全部满足。
\( k=3 \):\( a_i + 15 \in [15, 20) \),要 \( \geq 1 \),全部满足。
\( k=4 \):\( a_i + 20 \in [20, 25) \),要 \( \geq 1 \),全部满足。
\( k=5 \):\( a_i + 25 \in [25, 30) \),要 \( \geq 1 \),全部满足。
\( k=6 \):\( a_i + 30 \in [30, 35) \),要 \(
K0-math
prompt:
在平面直角坐标系内,点M∈{(x,y)|x^2/200+y^2/8≤1},点A(2,1),若△OMA的面积不超过3,则满足条件的整点M的个数为
思维链路:
不过,我有点担心是不是有某些点不满足椭圆的条件。为了确保,我随机检查几个点:
比如,当 \( y = 2 \) 时,\( x = 10 \):
\[
\frac{10^2}{200} + \frac{2^2}{8} = \frac{100}{200} + \frac{4}{8} = 0.5 + 0.5 = 1
\]
符合条件。
再看看当 \( y = -2 \) 时,\( x = -10 \):
\[
\frac{(-10)^2}{200} + \frac{(-2)^2}{8} = \frac{100}{200} + \frac{4}{8} = 0.5 + 0.5 = 1
\]
也符合。
看来我的计算是正确的。
所以,满足条件的整数点 \( M \) 的个数是 65。
(二)推理时间,随难度显著增加
具体实战时,DeepSeek-R1-Lite完成竞赛数学平均推理时间仅3min,考研数学题的平均推理时间是1min。
考研数学:
(三)推理过程可能存在中英混杂的情况
一些推理模型也会有偶现的输出问题。例如,DeepSeek-R1-Lite在完成中文试题时,推理部分会存在中英夹杂的情况,K0-math会出现中文试题全英回答。
DeepSeek-R1
给定整数 n>2 和 l \in\{1,2, \cdots, n\} . 称 \{1,2, \cdots, n\} 的子集族 A_{1}, \cdots, A_{k} (允许相同) 是 l- 大的, 如果对任意 1 \leq i \leq k 有 \left|A_{i}\right| \geq l . 求最大的实数 c , 使得对任意正整数 k , 任意非负实数 x_{1}, \cdots, x_{k} , 以及 \{1,2, \cdots, n\} 的任意 l -大的子集族 A_{1}, \cdots, A_{k} , 均有\sum_{i=1}^{k} \sum_{j=1}^{k} x_{i} x_{j} \frac{\left|A_{i} \cap A_{j}\right|^{2}}{\left|A_{i}\right| \cdot\left|A_{j}\right|} \geq c\left(\sum_{i=1}^{k} x_{i}\right)^{2}
思维链路
这可能比较难以直接计算。
也许可以考虑对称的情况,比如所有 \( A_i \) 都是相同的集合,或者完全不相交的集合。
不过,完全不相交的集合在 \( I \geq 1 \) 时可能不成立,因为 \( n > 1 \)。
Wait, for \( I=1 \), \( n > 2 \), but \( I \) can be up to \( n \)。
If \( I=1 \), then \( A_i \) can be any non-empty set。
But since it's \( I \)-large, \( |A_i| \geq l \)。
But \( I \) can be from 1 to \( n \)。
This complicates things.
Maybe consider fixing \( I \) and \( n \), and find \( c \) in terms of \( I \) and \( n \)。
But the problem asks for \( c \) in terms of \( n \) and \( I \)。
K0-math
prompt:
以 x=t y 参数化曲线 x^{2}+y^{3}=x y , 求曲线所围区域的面积.
思维链路:
Given the time I've spent without making progress, I think I need to revisit the problem statement to ensure I understood it correctly. The problem asks to parameterize the curve with \(x=t\) and \(y=t\), but that led to a trivial solution. Perhaps the intended parameterization is different.
If I consider a different parameterization, such as (x
从以上情况可以推断,或许模型在数据训练时,投喂的中文数据语料偏少,反而英文语料偏多,导致即使中文问题仍会出现大量英文回答。
(四)纠错失效?长推理链导致模型死循环
DeepSeek-R1-Lite模型推理包括长链路推理和输出解题思路2个步骤。对于输出解题,模型推理即使发现有误,仍会输出一个错误答案。
错误答案输出,题目实际答案为23,DeepSeek-R1-Lite知道错误后仍给出5作为结果。
prompt:
在坐标平面上, 设 O(0,0), A\left(\frac{1}{2}, 0\right) , 和 B\left(0, \frac{\sqrt{3}}{2}\right) 。设 \mathcal{F} 为单位长度的线段 \overline{P Q} 所组成的集合, 这些线段位于第一象限, 点 P 在 x -轴上, 点 Q 在 y -轴上。在 \overline{A B} 上有一个独特的点 C , 不同于 A 和 B , 它不属于 \mathcal{F} 中的任何线段, 除了 \overline{A B} 。那么 O C^{2}=\frac{p}{q} , 其中 p 和 q 是互质的正整数。求 p+q 。
思维链路
坐标平面线段长度求和问题,UC=1/4,
可能这就是答案。
不过,我觉得可能有误,因为题目的答案可能不是5。
也许我需要再检查一下。
假设 c(14,34)c(41,43),那么 oc2=(14)2+(34)2=116+316=416=14oc2=(41)2+(43)2=161+163=164=41,确实是 1441。
也许题目有误,或者我的理解有误。
不过,根据我的推导,答案应该是5。
答案:根据我的推导,答案应该是5。
面对长链路推理,模型思维链失败,会承认超出能力范围,但也会陷入死循环状态。
2 算法竞赛题推理能力评测, o1 系列依然领跑
除了数学竞赛之外,AGI-Eval还针对编程能力进行了专项评测。AGI-Eval 在编程的模型评测部分,采用了最新发布的「高难度算法竞赛题」数据集,是由多所高校合作建设完成,包括NOIP(信息学竞赛省赛)、信息学竞赛省队选拔赛 、 NOI(信息学竞赛全国赛)等多个渠道。在「高难度算法竞赛题」数据集榜单上,o1-mini和o1-preview的编程能力依然保持显著优势,但其他国产模型如DeepSeek-R1-Lite和InternThinker-Alpha也展现出了不俗的实力,尤其是在一些特定类型的题目上超越了 o1系列模型。
榜单链接:https://agi-eval.cn/evaluation/advanced-algorithm-olympiad
在代码能力得分这个维度上,之前主要参考准确率(通过全部测试用例算正确否则算错误)和通过率(看每个测试用例是否通过)这两个指标。但参考实际得分时,因为竞赛类试题难度大,各模型的准确率区分度不足,最终以通过率作为指标。除此之外,为拉开区分度,也尝试通过给出题解、伪代码的方式来评测。
3
下一步计划:人机协作评测新模式探索及高质量评测社区建设
鉴于传统评测方式难以充分反映模型的真实水平,AGI-Eval创新性地提出了人机协作评测模式。在这种模式下,参与者可以与最新的大模型共同完成任务,既有助于提高任务完成度又便于建立更加直观的区分度。基于前期的一些用户实验表明,通过这种方式不仅可以获得更为简洁、完善的推理过程描述,还可以进一步提升用户与大模型之间的互动体验。未来,随着更多类似平台的出现和发展,相信人机协作将成为评测领域的一个重要发展方向。
人机社区链接:https://agi-eval.cn/llmArena/home
AGI-Eval 平台基于真实数据回流、能力项拆解等方式,自建万量级私有数据,并经过多次质检保证准确率。黑盒100%私有化数据,可保证评测数据不可“穿越”。从数据建设到模型评测,实现全层级能力项目,一级能力涵盖指令遵循、交互能力、认知能力(含推理、知识、其他认知能力等);完美实现自动与人工评测相结合。
对于Chat模型,平台官方榜单结合主观、客观评测结果,中英文权重分布均衡。客观评测基于模型打分,可处理具有一定自由度问题,准确率95%+;主观评测基于三人独立标注,并记录细分维度标签结果,全面诊断模型问题。
4 总结:推理模型面临的挑战与思考
(一)数据训练与语料问题
推理模型中出现的中英混杂现象,反映出模型训练数据语料的不平衡。在未来的模型训练中,如何增加高质量的中文语料,优化语料比例,成为提升模型中文推理能力的关键问题。这需要开发者在数据收集、整理和预处理阶段,更加注重中文数据的多样性、准确性和丰富性,以减少因语料问题导致的推理偏差。
(二)推理纠错与死循环
DeepSeek - R1 - Lite 模型在推理过程中,即使发现错误仍可能输出错误答案,且在面对长链路推理时,容易陷入死循环状态。这表明模型在推理纠错机制和长链路推理的优化上还有很大的提升空间。开发者需要研究更有效的推理纠错算法,以及对长链路推理进行合理的中断或优化策略,以提高模型推理的准确性和效率。
(三)模型校准与性能提升
在模型校准方面,尽管大规模模型如 GPT - 4o 在一定程度上表现出更好的校准性能,但整体来看,各模型在信心指数与答案实际准确率的匹配上仍存在不足,普遍对自身回答的准确性过于自信。未来需要深入研究模型校准技术,使模型能够更准确地评估自身答案的可靠性,从而提高模型在实际应用中的可信度。
5 未来展望
推理模型在当前的技术发展中取得了显著进展,AGI - Eval 等各类新型评测社区也为模型的评估提供了一些新颖的视角,推动了模型在数学、代码推理以及人机协作等多方面的发展。然而,模型仍面临着数据训练、推理纠错、模型校准等诸多挑战。随着技术的不断演进,未来有望通过优化数据策略、改进算法设计、完善评估体系等多方面的努力,进一步提升推理模型的性能,使其在更多领域发挥更大的价值,为人工智能技术的发展带来新的突破与变革,推动人工智能从感知智能向认知智能的深度跨越。
此外,近期发布的满血“o1 ”和“o1 pro”,在数学、代码和各类专家测试中,能力也上升了一个新的台阶。最强的推理模型到底有多强?AGI-Eval 社区会设计更加具有难度、区分度的问题,更新榜单、给出答案。
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
来源:AI科技评论一点号