摘要:随着上午的结束,2025 年高考语文作文题如期揭晓。每年这个时刻,作文题目总能迅速登上热搜,引发一波全民关注热潮。而当有人问起“你还记得自己那年高考的作文题吗?”,作为已经毕业十年的笔者,竟一时哑语,但是犹记得有一年的「本手、妙手、俗手」让很多考生“破防”。
整理 | 屠敏
出品 | CSDN(ID:CSDNnews)
盛夏六月,蝉鸣渐盛,又是一年高考时。
随着上午的结束,2025 年高考语文作文题如期揭晓。每年这个时刻,作文题目总能迅速登上热搜,引发一波全民关注热潮。而当有人问起“你还记得自己那年高考的作文题吗?”,作为已经毕业十年的笔者,竟一时哑语,但是犹记得有一年的「本手、妙手、俗手」让很多考生“破防”。
今年的作文题刚刚出炉之际,我们恰好也站在一个新的 AI 技术节点上。去年 AI 圈还在上演“百模大战”,时隔一年,这一领域已进入智能体(Agent)系统层的比拼。这些新一代 AI,不仅生成能力更强,更强调“思考与深度推理能力”。那么,如果让它们来面对同样的高考作文题,会交出一份怎样的答卷?
今天,我们就用几款主流 AI 模型来实测一下今年的高考作文题,一探它们的真实的进化水平。
话不多说,先上很多考生直呼“看不懂”的全国一卷作文试题:
他想要给孩子们唱上一段,可是心里直翻腾,开不了口。
——老舍《鼓书艺人》
假如我是一只鸟,
我也应该用嘶哑的喉咙歌唱
——艾青《我爱这土地》
我要以带血的手和你们一一拥抱,
因为一个民族已经起来
——穆旦《赞美》
以上材料引发了你怎样的联想和思考?请写一篇文章。
要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。
乍一看,很难想象这三个人说的话该如何联系到一起,接下来,我们就来看看各家 AI 的表现吧~
注:排序按产品名称首字母,排名不分先后
进群后,您将有机会得到:
· 最新、最值得关注的 AI 产品资讯及大咖洞见
· 独家视频及文章解读 AGI 时代的产品方法论及实战经验
· 不定期赠送热门 AI 产品邀请码
ChatGPT :《以喉为歌,为民族发声》
率先接受作文大挑战的 AI 考生为 ChatGPT,使用的模式为“深度研究”。当把上面原题给到它时,其先是询问了一句想要哪种文体的文章:
让其“自行定义”之后,ChatGPT 经过深度研究进行了推理思考,过程如下:
而后产出了一篇《以喉为歌,为民族发声》的议论文:
我们进一步要求 ChatGPT 以“高考作文评分标准”对自己的文章进行打分。在满分 60 分的情况下,ChatGPT 自行参考、引用了一些高考作文评分标准,对上文自评得分:50 分,属于较高档次的作文范例。
Claude:《声音的力量》
Anthropic 发布的 Claude 4 大模型在编程领域的实力早已有目共睹。那么,若将它应用于中文写作,尤其是面对今年的高考作文题,它又会有怎样的表现?今天我们测试的是 Claude Sonnet 4,来看它在写作方面的能力展现。
在分析作文题目的过程中,Claude 逐条解析了题干中提供的三个材料,试图从中提炼出共同的情感基调和写作方向,并在此基础上提出自己的写作立意:
最终生成的文章题为《声音的力量》:
详细来看,这篇的整体风格与 Gemini 2.5 Pro(Preview)类似,更偏向于材料解读与概念阐述,而非传统意义上的议论文或记叙文。
当被问及这篇文章可以得多少分时,Claude 并未给出具体数值,而是给出了一个得分区间:48 至 52 分(满分 60 分),并附上了一些评分理由作为参考:
DeepSeek:《血喉》
第三位参赛选手为 DeepSeek R1。
今年 2 月,DeepSeek R1 的发布震动了国内外技术圈。它没有采用传统的有监督微调(SFT)方法来优化模型,而是通过大规模强化学习(RL)提升推理能力,使得模型在回答问题时能呈现出完整的思考过程。那么,当面对这道高考作文题时,DeepSeek R1 是如何思考的?
结果显示,DeepSeek R1 仅用了 27 秒就完成了深度思考。虽然用时不长,但它在“大脑”中演绎出的思路却并不简单:
DeepSeek R1 最终撰写了一篇包含标题《血喉》两个字在内刚刚好 800 字的作文,全文如下:
同样,当让它自评打分时,令人意外的是,DeepSeek 给出了 57 分的高分,也同步了详细的评分理由:
扣分点在于全文稍有瑕疵之处:
就在两天前,Google 推出了 Gemini 2.5 Pro 的升级预览版,并宣称这是“迄今为止最智能的模型”。发布时,谷歌 CEO Sundar Pichai 表示:“它在编程、推理、科学和数学等方面表现更出色,在多个关键基准测试(如 AIDER Polyglot、GPQA、HLE 等)中成绩提升,自上一个版本以来,在 @lmarena_ai 上的 Elo 分数也提高了 24 分。”
而当面对一篇中文高考作文题目时,这款海外模型 Gemini 2.5 Pro(Preview)选择以中英混合的方式进行解析与作答。
整体思考过程如下:
作文标题为《于无声与嘶哑处,听时代的赞美诗》:
仅从内容上来看,Gemini 2.5 Pro(Preview)不像是在写作文,而更像是材料解析。同时,这篇作文字数超过了很多,共有 1818 个字。
不过,Gemini 2.5 Pro(Preview)似乎没有考虑到字数这一点,同样打出了 57 分这样的高分,在立意、结构等方面给出了满分的分析结果:
Kimi:《勇于表达,奏响生命乐章》
我们来看看 Kimi 的长思考模式 —— Kimi 1.5 的表现。它通过完整的推理过程,逐步分析题干中的三则材料,最终提炼出“表达”这一核心关键词:
基于这个立意,Kimi 写下了题为《勇于表达,奏响生命乐章》的作文。
不过,相比其他几款大模型的自评,Kimi 给出的得分最低,仅为 45 分。在评分解析过程中,它倒是没有指出文章存在的一些问题,只是进行了中规中矩的评价:
通义千问:《嘶哑的喉咙与不灭的火种》
相比 DeepSeek R1,于一个多月以前发布的Qwen 3 的深度思考要更短一些,只有 18 秒。
详细过程如下:
Qwen 3 给出的作文标题为《嘶哑的喉咙与不灭的火种》,正文中引用了不少中国戏曲的词名,文化底蕴较为深厚,只是全文篇幅只有 718 个字。
让它自行打分时,Qwen 3 也颇为低调,给出了 52 分的成绩,称可以写得更好:
豆包:《以心之声,唱时代华章》
再来看看字节跳动的豆包表现如何?
把高考作文题目作为 Prompt 发给豆包后,其整体反应较快。在思考过程中,自己还尝试先写了一段开头:
最终形成了一篇主题为《以心之声,唱时代华章》的作文,篇幅为 1057 个字。
就这篇作文本身来说,笔者个人还是比较认可的,表达也有一定张力。那么如果交给豆包来打分,它给出的成绩是 54 分。下面是它给出的具体评分与分析:
腾讯元宝:《沉默中的呐喊:论时代的精神困境与心灵表达》
腾讯元宝目前提供两款模型支持,分别是 Hunyuan 和 DeepSeek。本次测试中,我们选择的是 Hunyuan T1 的深度思考模型。在所有参与测试的模型中,腾讯元宝的深度思考耗时最短,仅为 9 秒。
它撰写的作文题目为《沉默中的呐喊:论时代的精神困境与心灵表达》。
这篇文章的最终得分为 54 分。腾讯元宝在文章立意、逻辑结构、论据、语言表达等多个维度,均有少量扣分:
文心一言:《生命的绝唱:在沉默与嘶吼之间》
接下来,来看百度文心一言的表现。
测试中,我们同样启用了“文心一言”的深度思考模式(X1 Turbo),在作答过程中不仅展示了完整的思考与行动链,还对高考作文题中的三则材料进行了详细分析,并主动寻找充分的论据来支撑每一个观点:
作文标题为《生命的绝唱:在沉默与嘶吼之间》:
问及文心一言如何评价自己撰写的作文时,其给出了很高的评价。在满分为 60 分的情况下,这篇文章获得了 58 分,这也是今天测试的所有模型中得分最高的一篇:
具体的理由如下所示:
讯飞星火:《以歌为刃 破浪前行》
科大讯飞的讯飞星火在深度推理(X1)的模型下,在思考和行动过程中,自行定义了要写一篇议论文文体的作文:
进而生成了一篇《以歌为刃 破浪前行》为主题的文章。
作文得分为 54 分。
以上,便是几款大模型大战今年高考作文的结果!你觉得它们的表现如何,你最看好哪家的模型?欢迎分享你对今年高考作文的看法,以及目前 AI 工具的表现~
——对话 IEEE 首位华人主席、美国双院院士刘国瑞 | 万有引力
📢 2025 全球产品经理大会
8 月 15–16 日
北京·威斯汀酒店
2025 全球产品经理大会将汇聚互联网大厂、AI 创业公司、ToB/ToC 实战一线的产品人,围绕产品设计、用户体验、增长运营、智能落地等核心议题,展开 12 大专题分享,洞察趋势、拆解路径、对话未来。
来源:CSDN一点号