高考数学成绩比拼:DeepSeek R1 143分,讯飞星火141分!

B站影视 日本电影 2025-06-08 21:44 2

摘要:2025年高考刚结束,作为拉分科目的数学,一度被视为智商试金石。

摘要:推理LLM大幅提升了理科成绩,数学上LLM已成尖子生。

2025年高考刚结束,作为拉分科目的数学,一度被视为智商试金石。

到底难不难?大家反馈不一。

估及韦东奕,连连摆手:不难不难,一点都不难。

大模型能得多少分?

2024年大模型高考测评

2024年,有人用高考题测试模型能力,使用2024年河南省高考试题,测试主流大模型能力。

8个大模型“考生”分别参加了文理科考试,到底谁更厉害?

分析:

文科榜单:通义千问>浦语文曲星>GPT-4o,这3位考生达到一本线理科榜单:浦语文曲星>GPT-4o >通义千问,前三甲都没过一本,只是二本水平

可见,大模型对文科生威胁更大。

一年过去了,推理LLM层出不穷,理科能力是否有质的提升呢?

2025年高考数学

IT之家做了实验,让大模型做2025年高考数学试卷。

大模型“考生”:

DeepSeek R1 0528通义千问 Qwen3-235B-A22B讯飞星火 X1-0420豆包 Seed-Thingking-v1.5文心 X1 Turbo腾讯混元 Hunyuan T1 latestGPT o3

同时,邀请专家对大模型答案进行评分:

汪鹏:十年高中数学一线教研专家,主导省级数学教学创新课题,精研命题策略与高分突破路径。

考试开始

全国一卷数学(部分):

选取几道代表题目

① 选择题

第一题:答案C,全部正确

第五题,难度提升,答案A,依然全对

②解答题

除了给出正确答案,还需要有解答过程,难度高于选择题。

第16题

大部分选手都能给出正确答案和解答过程,15分到手,而文心答案错误,得6分,混元0分。

继续拔高,增大难度。

第18题

讯飞星火 X1、豆包大模型、DeepSeek R1、通义千问、腾讯元宝以及 GPT o3 的解题过程和答案都没问题,拿到 17 分满分,而文心 X1 模型的答案存在错误,得分为 10 分。

分析

成绩汇总

DeepSeek、讯飞星火表现突出,唯二突破 140 分的大模型,稳居国内大模型数学能力的第一梯队,达到“尖子生”标准。其中,DeepSeek 以 143 分的成绩位列榜首,讯飞星火以 141 分紧随其后,位居第二,GPT o3 则以 138 分获得第三名。

数学考试上,大模型都是优等生,110以上,DeepSeek 和讯飞超过140!

DeepSeek R1 模型是在 5 月 28 日的最新版,能力确实强,但OCR能力不足,题目识别有误,需要辅助。

讯飞星火X1是4 月 20 日升级,版本较早,但在模型量级更小(70b)的情况下,依然取得 141 分的高分,并显著超越了豆包等其他参与测评的国内大模型,不愧是长期耕耘在教育领域的选手。

豆包、通义千问等大模型紧跟 GPT o3,和国际顶尖的模型水平打了个平手。

看来,理科生也危险了。

2025 高考数学是深度推理模型的一场大考,和去年相比,AI 数学能力显著提升。

可见,2025 年将是 AI 应用落地的爆发期。

附录

参考:

IT之家分析:https://news.qq.com/rain/a/20250608A05OZ9002025年全国卷一数学试题:https://gaokao.eol.cn/shiti/sx/202506/t20250607_2673303_1.shtml

来源:鹤啸九天blog

相关推荐