摘要:2025年高考刚结束,作为拉分科目的数学,一度被视为智商试金石。
摘要:推理LLM大幅提升了理科成绩,数学上LLM已成尖子生。
2025年高考刚结束,作为拉分科目的数学,一度被视为智商试金石。
到底难不难?大家反馈不一。
估及韦东奕,连连摆手:不难不难,一点都不难。
大模型能得多少分?
2024年大模型高考测评
2024年,有人用高考题测试模型能力,使用2024年河南省高考试题,测试主流大模型能力。
8个大模型“考生”分别参加了文理科考试,到底谁更厉害?
分析:
文科榜单:通义千问>浦语文曲星>GPT-4o,这3位考生达到一本线理科榜单:浦语文曲星>GPT-4o >通义千问,前三甲都没过一本,只是二本水平可见,大模型对文科生威胁更大。
一年过去了,推理LLM层出不穷,理科能力是否有质的提升呢?
2025年高考数学
IT之家做了实验,让大模型做2025年高考数学试卷。
大模型“考生”:
DeepSeek R1 0528通义千问 Qwen3-235B-A22B讯飞星火 X1-0420豆包 Seed-Thingking-v1.5文心 X1 Turbo腾讯混元 Hunyuan T1 latestGPT o3同时,邀请专家对大模型答案进行评分:
汪鹏:十年高中数学一线教研专家,主导省级数学教学创新课题,精研命题策略与高分突破路径。考试开始
全国一卷数学(部分):
选取几道代表题目
① 选择题
第一题:答案C,全部正确
第五题,难度提升,答案A,依然全对
②解答题
除了给出正确答案,还需要有解答过程,难度高于选择题。
第16题
大部分选手都能给出正确答案和解答过程,15分到手,而文心答案错误,得6分,混元0分。
继续拔高,增大难度。
第18题
讯飞星火 X1、豆包大模型、DeepSeek R1、通义千问、腾讯元宝以及 GPT o3 的解题过程和答案都没问题,拿到 17 分满分,而文心 X1 模型的答案存在错误,得分为 10 分。
分析
成绩汇总
DeepSeek、讯飞星火表现突出,唯二突破 140 分的大模型,稳居国内大模型数学能力的第一梯队,达到“尖子生”标准。其中,DeepSeek 以 143 分的成绩位列榜首,讯飞星火以 141 分紧随其后,位居第二,GPT o3 则以 138 分获得第三名。数学考试上,大模型都是优等生,110以上,DeepSeek 和讯飞超过140!
DeepSeek R1 模型是在 5 月 28 日的最新版,能力确实强,但OCR能力不足,题目识别有误,需要辅助。
讯飞星火X1是4 月 20 日升级,版本较早,但在模型量级更小(70b)的情况下,依然取得 141 分的高分,并显著超越了豆包等其他参与测评的国内大模型,不愧是长期耕耘在教育领域的选手。
豆包、通义千问等大模型紧跟 GPT o3,和国际顶尖的模型水平打了个平手。
看来,理科生也危险了。
2025 高考数学是深度推理模型的一场大考,和去年相比,AI 数学能力显著提升。
可见,2025 年将是 AI 应用落地的爆发期。
附录
参考:
IT之家分析:https://news.qq.com/rain/a/20250608A05OZ9002025年全国卷一数学试题:https://gaokao.eol.cn/shiti/sx/202506/t20250607_2673303_1.shtml来源:鹤啸九天blog