高考数学成绩比拼：DeepSeek R1 143分，讯飞星火141分！

摘要：2025年高考刚结束，作为拉分科目的数学，一度被视为智商试金石。

摘要：推理LLM大幅提升了理科成绩，数学上LLM已成尖子生。

2025年高考刚结束，作为拉分科目的数学，一度被视为智商试金石。

到底难不难？大家反馈不一。

估及韦东奕，连连摆手：不难不难，一点都不难。

大模型能得多少分？

2024年大模型高考测评

2024年，有人用高考题测试模型能力，使用2024年河南省高考试题，测试主流大模型能力。

8个大模型“考生”分别参加了文理科考试，到底谁更厉害？

分析：

文科榜单：通义千问＞浦语文曲星＞GPT-4o，这3位考生达到一本线理科榜单：浦语文曲星＞GPT-4o ＞通义千问，前三甲都没过一本，只是二本水平

可见，大模型对文科生威胁更大。

一年过去了，推理LLM层出不穷，理科能力是否有质的提升呢？

2025年高考数学

IT之家做了实验，让大模型做2025年高考数学试卷。

大模型“考生”：

DeepSeek R1 0528通义千问 Qwen3-235B-A22B讯飞星火 X1-0420豆包 Seed-Thingking-v1.5文心 X1 Turbo腾讯混元 Hunyuan T1 latestGPT o3

同时，邀请专家对大模型答案进行评分：

汪鹏：十年高中数学一线教研专家，主导省级数学教学创新课题，精研命题策略与高分突破路径。

考试开始

全国一卷数学（部分）：

选取几道代表题目

① 选择题

第一题：答案C，全部正确

第五题，难度提升，答案A，依然全对

②解答题

除了给出正确答案，还需要有解答过程，难度高于选择题。

第16题

大部分选手都能给出正确答案和解答过程，15分到手，而文心答案错误，得6分，混元0分。

继续拔高，增大难度。

第18题

讯飞星火 X1、豆包大模型、DeepSeek R1、通义千问、腾讯元宝以及 GPT o3 的解题过程和答案都没问题，拿到 17 分满分，而文心 X1 模型的答案存在错误，得分为 10 分。

分析

成绩汇总

DeepSeek、讯飞星火表现突出，唯二突破 140 分的大模型，稳居国内大模型数学能力的第一梯队，达到“尖子生”标准。其中，DeepSeek 以 143 分的成绩位列榜首，讯飞星火以 141 分紧随其后，位居第二，GPT o3 则以 138 分获得第三名。

数学考试上，大模型都是优等生，110以上，DeepSeek 和讯飞超过140！

DeepSeek R1 模型是在 5 月 28 日的最新版，能力确实强，但OCR能力不足，题目识别有误，需要辅助。

讯飞星火X1是4 月 20 日升级，版本较早，但在模型量级更小（70b）的情况下，依然取得 141 分的高分，并显著超越了豆包等其他参与测评的国内大模型，不愧是长期耕耘在教育领域的选手。

豆包、通义千问等大模型紧跟 GPT o3，和国际顶尖的模型水平打了个平手。

看来，理科生也危险了。

2025 高考数学是深度推理模型的一场大考，和去年相比，AI 数学能力显著提升。

可见，2025 年将是 AI 应用落地的爆发期。

附录

参考：

IT之家分析：https://news.qq.com/rain/a/20250608A05OZ9002025年全国卷一数学试题：https://gaokao.eol.cn/shiti/sx/202506/t20250607_2673303_1.shtml

来源：鹤啸九天blog

标签：数学高考 deepseek deepseekr1 高考数学

本文地址：http://news.43b.com.cn/a/547053.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐