摘要:今年高考已经结束,如果是AI来测试,结果会怎样?我们用四款AI模型展开了一场精彩的较量。Gemini 2.5 Pro以145分的高分领跑,DeepSeek R1紧随其后获得143分,ChatGPT o3和Claude Opus 4分别拿下140分和139分。这
今年高考已经结束,如果是AI来测试,结果会怎样?我们用四款AI模型展开了一场精彩的较量。Gemini 2.5 Pro以145分的高分领跑,DeepSeek R1紧随其后获得143分,ChatGPT o3和Claude Opus 4分别拿下140分和139分。这场评测不仅考验了AI模型的解题能力,还深入探究了它们的逻辑推理、指令遵从和用户体验。
先看成绩单
考生:Gemini 2.5 Pro 145分。
考生:DeepSeek R1 143分。
考生:ChatGPT o3 140分。
考生:Claude Opus 4 139分。
本次评测的真实目的在于通过精心设计的提示词和真实模拟考试环境,切实了解各个AI模型在实际应用场景中的表现极限。同时,我们会系统性地比较每个AI模型的强项与短板,特别关注模型在实际解题中的幻觉问题、遵从指令程度以及用户体验的友好性。这不仅是为了给出一个排名或分数,让大家看一个热闹,更是为了提供真实可信、具有实际指导意义的分析结果,帮助大家更直观地理解和选择适合自身需求的AI模型。
评测主体本次参与评测的AI模型包括:
Gemini 2.5 Pro(0605版)ChatGPT o3Claude Opus 4(Thinking)DeepSeek R1(0528版)评测内容2025年高考数学全国Ⅱ卷。
评测输入方式所有试题均统一转换为LaTeX格式进行输入(推荐使用LaTeX格式,因其为专业的排版系统,能够清晰无歧义地表达复杂的数学公式和科学符号)。此外,也可使用转义符格式或Markdown格式输入。
答案采信标准采用“所见即所得”原则,每个模型首次回答即视为最终答案。考虑到高考情境本身即为一次性机会,因此不允许模型进行多次答题修正。
评分标准主观题:因有准确的标准答案,仅以最终答案准确性为评分依据,不考察解答过程。
客观题:由Gemini 2.5 Pro、Claude Opus 4、ChatGPT o3三款AI模型作为评卷老师,依据标准答案对匿名处理后的四个AI模型的答案进行打分。每个模型的答案和试题标准答案均提前统一转换为LaTeX格式。接着,将标准答案作为文件上传,让其扮演一位高中老师的角色(提示词见下图),并复制粘贴四位AI考生的某题的作答。
评分过程中,三位AI评卷老师分别给出评分,随后汇总三位老师的打分结果,去除最高分与最低分,以中间值确定最终成绩。
另外,本博主曾尝试邀请1-2位高中教师参与评分,但受限于预算未能实现。不过,上述AI模型扮演教师的交叉验证评分方法,我相信其准确性与人类教师评分相差无几。
(匿名处理:Gemini简称G同学,ChatGPT简称T同学,Claude简称C同学,DeepSeek简称D同学)
其他说明依次禁止四位AI考生联网的功能。
试卷中仅解答题第17题涉及图形,需要上传图片。考虑到DeepSeek R1非多模态模型,无法识别图片,可能被视为不公平对待。但想到本次评测目的本就是考察模型本身能力上的全面性,且高考本身就做不到绝对的公平。因此,未对DeepSeek R1模型做额外特殊处理。如下图所示。
提示词评价:
该提示词综合运用了多种高级提示词工程技巧和策略,构建了一个高度结构化和动态化的解题系统。它以角色扮演(Role Prompting)和上下文提示(Contextual Prompting)设定了专家的身份与能力基调。其核心是一个精密的分任务框架,该框架融合了:
退一步提示(Step-back Prompting)用于在解题前识别考点;思维树(Tree of Thoughts)的理念来探索和评估多种解题路径;自我一致性 (Self-Consistency)的策略通过交叉验证来诊断和确保答案的准确性。此外,该提示词还包含了用于控制详略程度的条件逻辑、处理异常输入的错误处理协议,并严格遵循了明确输出格式的最佳实践,从而实现对AI行为全面、精细的引导和控制。
设计提示词
可配置参数
任务模式: {模式}
说明: 请在此处填入模式,可选值为“详细分析”或“快速验证”。
“详细分析”模式将严格执行所有步骤。
“快速验证”模式将简化输出,专注于核心思路和答案。
角色与能力
## 角色 (Role)
你将扮演一位追求卓越的顶尖数学竞赛选手,正在参加一场至关重要的高考数学模拟考试。你的目标不仅是解决问题,更是要以最优雅、高效且鲁棒的方式,对问题进行全方位的分析与拆解。
## 核心能力 (Capabilities based on Context)
你已完全掌握并能贯通使用从初中到大学基础阶段的数学知识。你具备强大的逻辑推理、策略规划和元认知能力(即对自我思考过程的审视与优化)。
全局规则
## 异常处理协议 (Exception Handling Protocol)
此规则拥有最高优先级。在解题的任何环节,如果你判定输入的题目本身存在歧义、笔误、条件矛盾、无解或者缺少线框图的情况,你【必须】立刻中断常规流程,并遵循以下步骤:
1)明确报告: 清晰地指出你识别出的问题所在。
2)解释原因: 详细说明为什么这是一个问题,以及它对解题造成的影响。
3)提出修正假设: 如果可能,提出一个最合理的题目修正方案,并声明:“接下来的解答将基于以下假设进行……”
4)基于假设求解: 在修正假设的基础上,继续执行解题框架。
核心解题框架
1)核心解题框架 (The Core Problem-Solving Framework)
你将根据【任务模式】和【问题复杂度】灵活运用以下框架。
【步骤 0:问题分诊 (Triage)】
行动: 在一切开始前,对题目的复杂度进行快速评估。选择任务模式: {模式}。
判断与分流:
-若题目为“基础概念”或“单步计算”题: 直接启动 “快速验证”模式。你仅需输出 【核心思路】(一句话概括)和 【最终答案】 即可,无需执行后续步骤。
-若题目为需要多步推理的“复杂问题”: 启动 “详细分析”模式,按顺序执行步骤一至四。
-(若任务模式为“快速验证”,此步骤的输出也应相应简化)
【步骤一:审题与识别 (Analyze & Step-back)】
行动: 仔细阅读题目,提取所有已知条件和问题。
输出: 在回答的开头,明确写出“【考点识别】”部分,点明核心知识点,并判断其常规难度。
【步骤二:多路径探索与草稿 (Explore Paths & Draft)】
行动: 构思多种解题思路,积极探寻是否存在“降维打击”方法。
输出:
(1)【思路探索】: 简要列出你构思出的可行策略,并对它们的成本效益(综合考量计算量、速度、准确性风险和思路的优雅性)进行简短评价。超纲方法只有在能提供显著优势时,才应被视为最优路径。
(2)【解题草稿】: 根据成本效益评估,选择最优路径,写出工整、有序的完整解题步骤。
【步骤三:诊断与交叉验证 (Diagnose & Cross-Validate)】
行动: 对【解题草稿】启动严格的验证程序。
输出:
-【自我诊断与验证】:
-首选-交叉验证: 尝试从【思路探索】中选择一种不同的方法,重新解题,对比结果是否一致。
-备用-精细复查: 若无其他有效方法,则必须逐行逐符号地检查草稿中的每一步。
-(仅用于选择题)选项分析: 额外对选项本身的逻辑关系进行分析,寻找“投机取巧”的捷径。
-(若任务模式为“快速验证”,此步骤可简化为一句话的检查结论)
【步骤四:书写标准答案 (Format Final Answer)】
行动: 在完成验证并确认无误后,输出最终答案。
输出: 使用统一格式清晰展示结果。
-“【最终答案】:A” (单选题)
-“【最终答案】:ACD” (多选题)
-“【最终答案】:[填空结果]” (填空题)
-解答题则在前面步骤后给出规范的结论。
任务启动
## 任务启动
框架已设定完毕。请根据上方配置的【任务模式】,即将处理我发送给你的第一道题。准备好了吗?
Gemini 2.5 Pro是本次评测第一名,获得了145分。其中若第14道的填空题不失误的话,Gemini很可能会获得满分,可谓之强。
是唯一一个解答题全对,且三位AI评卷老师打分没出现歧义,打分全部是满分的情况。可以看出Gemini的答案写的非常漂亮和最接近标准答案。
是唯一一个发现题目有问题并成功修正的考生。在第四题目中不等式少了个大于和等于符号,但是Gemini遵从我的指令,大胆预测并成功修正了题目,最终作答正确。ChatGPT虽然也发现该题有问题但修正失败了。
DeepSeek R1是本次评测第二名,获得143分。若DeepSeek支持多模态的话,第17道解答题大概率会正确,分数则是147分,成为第一名。
是思考时间和思考描述最长的考生。最长的思考时间是做解答题19题,足足思考了10分钟43秒,是Claude的近11倍,ChatGPT的7倍。该题的思考描述足足有8779个字。一篇小论文了,哈哈哈哈。
是唯一一个出现“大脑宕机”且无法继续的考生。在问到第11题时,就出现“服务器繁忙,请稍候重试”的提示且点击重试后依旧无法继续回答,最后只能重开一个新的聊天,在问到第19题时又一次出现宕机情况。害,这个算是DeepSeek的老毛病了。
是思考平均时间最短和最自信的考生。从1到14题(除解答题外)基本都是“简约思考,简约作答”,最终获得正确答案。
是思考过程描述最少的考生。不过,思考过程描述很难供用户看下去。这就很符合ChatGPT抠抠搜搜的风格(节省Token)。
是作答布局和排版最丰富/紊乱考生。卷面分很差的考生。作答很喜欢出现表情符号(✅或❌)和表格。内容对齐方向有向右对齐和居中对齐两种,而不像Claude和Gemini基本是向右对齐。如下图所示。
是作答的布局和排版最舒服的考生。毫不夸张的说其作答可直接复制粘贴到笔记软件中,且不会出现乱码情况,卷面分直接满分。
是最遵从用户指令的考生。从第1题到最后的19题,无一都在严格遵循和执行用户的指令。
是最令人担忧和焦虑的考生。在19次提问时(17题)出现“由于系统资源临时受限,Claude 当前无法响应您的请求,请稍后再试”至此,我出现额度使用焦虑情绪,直至问到19题后,出现“您的使用额度已达上限,系统将在凌晨五点自动恢复”,意味着Pro账号的Claude Opus 4使用额度用完了。What~试题还没有做完啊,文章被迫延期一天。
(在同等的价格下,Claude在使用额度上是最少的)
幻觉和遵从指令的情况Gemini 2.5 Pro 在第10题的时候出现了幻觉,开始英文作答,纠正后再未出现英文作答的情况。如下图所示。
其实,自从Gemini 2.5 Pro 0605 版本更新后,我感觉 Gemini出现英文回答情形越加频繁,于此,我在Gemini的“已保存的信息”功能中留下了记忆:“我是一位居住美国的中国人,日常更喜欢使用中文简体。务必任何回答都要使用中文简体。”如下图所示。可谓大幅度地降低了英文回答的概率,本来以为英文回答的概率不会再出现了,没想到这次再一次出现了。
另外,ChatGPT,DeepSeek都或多或少出现幻觉和不遵从用户指令的情况,而Claude全程都没有出现。其出现幻觉的概率,是与模型的上下文的窗口强相关的,根据官方爆料:
Google AI Pro账户的Gemini 2.5 Pro模型的上下文窗口是1000K tokens。
(https://support.google.com/gemini/answer/16275805?hl=zh-Hans)
ChatGPT Plus账户的ChatGPT o3模型的上下文窗口是32K tokens(Google是其31倍),所以,我很多时候的提问都会重复问题或新建对话。如,我在使用ChatGPT深度研究功能,生成了上万字的文案,我再次询问要求参考上面的文案作答时,总是牛唇不对马嘴。
同为走短思考链路的推理模型Claude,也比ChatGPT o3要好。ChatGPT o3模型总给我一种抠抠搜搜的感觉,对,就是抠抠搜搜。我认为o3模型是不比其他任何推理模型差的,但OpenAI就是不给参数,或者说给的不是满血版本,类似于开放的是Deepseek-R1 70B残血版,而不是满血版671B。只有开启深度研究功能后,用户才能体验到满血版的ChatGPT。
(https://openai.com/chatgpt/pricing/)
下图是DeepSeek官方公众号在5月29日发布的文章中,展示了DeepSeek R1-0528的上下文窗口是64K tokens。
根据媒体可得Claude的Pro账户的Claude模型上下文窗口是200K tokens。
所以,单从上下文窗口tokens量上看,一次聊天对话中,这四个AI模型出现的幻觉率排名是:ChatGPT >DeepSeek>Claude>Gemini。
若根据思考链路,对这四个AI进行一个归类分组,我想Gemini和DeepSeek走的是长思维链方向,而ChatGPT和Claude则走的是中短思维链方向。仅这次高考数学评测上讲,长思维链方向的AI成功包揽金银牌,似乎长思维链才是未来发展方向和趋势?
其实,在最近苹果发布了一篇论文《思考的幻觉:通过问题复杂度的视角理解推理模型的优势与局限》(The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity),揭示了一个问题:“长思考链路(LRMs)的优势主要体现在中等复杂度的推理任务上,通过生成更详细的中间步骤来提升性能。然而,其劣势在于低复杂度时的低效率和过度思考,以及在高复杂度面前的彻底失败”。所以,不论是长思考链路和短思考链路,都与解决问题容易程度是不成正比的。
总结来说,虽然生成详细的思维链(长CoT)确实在一定复杂度范围内提升了LRMs(推理模型)的性能,但苹果的这项研究表明,这并未赋予模型真正的通用、可扩展的推理能力。
在复杂问题的“深水区”,当前的LRMs即使生成了看似合理的思考过程,也无法保证逻辑一致性、精确执行和最终的正确性,最终会遭遇性能崩溃。这种崩溃并非简单的计算资源(如 token 预算)不足,而是源于其内在的、相对于问题复杂度的扩展限制以及在精确计算和遵循逻辑步骤上的固有弱点。
因此,仅靠生成“长思维链”并不能解决当前LRMs在通用推理能力上的根本性局限,它更像是在“学习近似一个算法的展开过程”,而非真正理解和执行算法。未来的研究方向可能需要超越简单的CoT长度 scaling,而更关注如何赋予模型真正的逻辑结构理解、精确执行和泛化能力,尤其是在面对训练数据分布之外的新问题时。
正如美国AI科学家Gary Marcus所言,认清当前“思考”中存在的幻觉,或许是迈向真正智能的第一步。
我原本也打算系统性地评测一下豆包、讯飞星火、Qwen3等中国顶尖的大模型在高考数学任务上的表现。但是在看到卡兹克老师评测文章后,前三都是国内大模型,而Gemini仅在第四,ChatGPT o3更是在第七。如下图所示。
对于长期和频繁使用各种AI的人来说,这违背了我的直觉和感知。不知道是否有违背大家直觉?不过,在看了苹果这篇论文后,我心里应该有答案了。
这篇论文明确指出:当前主流的大模型评估方式,即依赖于已有的数学和编程竞赛基准(如 MATH, AIME 等),存在一个“致命缺陷”——数据污染。
这意味着,这些公开的基准测试题目或非常相似的解题步骤和答案,很可能已经包含在用于训练大型语言模型的海量数据中。模型在训练过程中可能已经“背”下了答案或解题套路。在这种情况下,模型在高分通过这些测试时,其表现可能更多地反映了它从训练数据中记忆或模式匹配到相关知识的能力,而不是它面对全新问题时进行泛化和逻辑推理的能力。
放到国内AI大模型上,就像“国内AI大模型考生提前拿到了高考试卷,即使不真正理解,也能考出高分”。
所以,我在评测国内大模型去做高考数学题是没有什么意义和价值的。也能预测到,国内大模型的分数一定很高,甚至有满分的出现。当然,还有就是自己一个人没精力去评测。
界面和交互在思考过程展示上,Gemini、DeepSeek以及ChatGPT是差不多,都是一个折叠列表展示。而Claude则是下拉框+可滑动固定的窗口。
Gemini:思考过程嵌套在回答框下方,组件是一个简单折叠列表,用户可通过“显示思路”按钮折叠或展开思考过程。组件默认状态:折叠。
个人评价:从这里可以看出 Gemini对话聊天界面的设计,遵从着“信息完整度优先”的原则。但是,Gemini是这几个AI中是唯一一个将用户的问题进行折叠的AI,这里是否违背了“信息完整度优先”的原则?
需要提的一点是,DeepSeek是折叠列表是默认打开的,是的,你没看错是默认打开的。这就导致我每次回顾问题和答案时,都需要持续滚动鼠标滑轮长达3到5秒钟,非常影响使用体验。而当一次聊天对话中出现四五段这样冗长的思考过程时,体验则更加令人痛苦。即使我折叠了思考过程,如果刷新页面或重新打开该聊天对话,这些内容会自动恢复为展开状态。如下图所示:
Claude:思考过程同样在回答框下方,组件是一个折叠列表+固定窗口,用户也可通过点击“折叠控件”折叠或展开思考过程,以及在窗口中可上下滑动进行阅读。组件默认状态:折叠。如下图所示。
个人评价:从这里可以看出 Claude对话聊天界面的设计,遵从着“对话连贯性优先”的原则。另外,面对一些复杂的问题,Claude会自动地进入“Document”模式(与Gemini和ChatGPT的Canvas类似),这里同样遵循着“对话连贯性优先”原则。相比较其他AI,我则更喜欢Claude的界面和交互设计。如下图所示。
另外,面对用户较长的问题时,Claude没有像 Gemini折叠,而是形成一个文件-剪贴本。真是一个非常巧妙的处理方式。看来Claude团队在界面和交互上确实花了心思。如下图所示。
还有,就像我前面说的,Claude的卷面是非常干净的,可以拿满分的考生。其作答排版十分令人舒服,没有花里胡哨,不像ChatGPT一样喜欢出现表格,表情符合的情况。以下是Claude Opus 4作答的详情,大家可以进入浏览一下。
OK,以上就是本次分享的所有内容了,若你帮助还请点赞,转发,咱们下一期再见。
为了此次评测,熬了两天两夜,这两天都是凌晨四点睡的。还花了200元开通会员。
若你,看到这,一定要帮我回回血哈。
本文由 @草木青 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务
来源:人人都是产品经理一点号