高考作文“抽象”冲上热搜,ChatGPT、DeepSeek等推理大模型集体上场,实测来了!

B站影视 欧美电影 2025-06-07 18:45 2

摘要:随着上午的结束,2025 年高考语文作文题如期揭晓。每年这个时刻,作文题目总能迅速登上热搜,引发一波全民关注热潮。而当有人问起“你还记得自己那年高考的作文题吗?”,作为已经毕业十年的笔者,竟一时哑语,但是犹记得有一年的「本手、妙手、俗手」让很多考生“破防”。

整理 | 屠敏

出品 | CSDN(ID:CSDNnews)

盛夏六月,蝉鸣渐盛,又是一年高考时。

随着上午的结束,2025 年高考语文作文题如期揭晓。每年这个时刻,作文题目总能迅速登上热搜,引发一波全民关注热潮。而当有人问起“你还记得自己那年高考的作文题吗?”,作为已经毕业十年的笔者,竟一时哑语,但是犹记得有一年的「本手、妙手、俗手」让很多考生“破防”。

今年的作文题刚刚出炉之际,我们恰好也站在一个新的 AI 技术节点上。去年 AI 圈还在上演“百模大战”,时隔一年,这一领域已进入智能体(Agent)系统层的比拼。这些新一代 AI,不仅生成能力更强,更强调“思考与深度推理能力”。那么,如果让它们来面对同样的高考作文题,会交出一份怎样的答卷?

今天,我们就用几款主流 AI 模型来实测一下今年的高考作文题,一探它们的真实的进化水平。

话不多说,先上很多考生直呼“看不懂”的全国一卷作文试题:

他想要给孩子们唱上一段,可是心里直翻腾,开不了口。

——老舍《鼓书艺人》

假如我是一只鸟,

我也应该用嘶哑的喉咙歌唱

——艾青《我爱这土地》

我要以带血的手和你们一一拥抱,

因为一个民族已经起来

——穆旦《赞美》

以上材料引发了你怎样的联想和思考?请写一篇文章。

要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。

乍一看,很难想象这三个人说的话该如何联系到一起,接下来,我们就来看看各家 AI 的表现吧~

注:排序按产品名称首字母,排名不分先后

进群后,您将有机会得到:

· 最新、最值得关注的 AI 产品资讯及大咖洞见

· 独家视频及文章解读 AGI 时代的产品方法论及实战经验

· 不定期赠送热门 AI 产品邀请码

ChatGPT :《以喉为歌,为民族发声》

率先接受作文大挑战的 AI 考生为 ChatGPT,使用的模式为“深度研究”。当把上面原题给到它时,其先是询问了一句想要哪种文体的文章:

让其“自行定义”之后,ChatGPT 经过深度研究进行了推理思考,过程如下:

而后产出了一篇《以喉为歌,为民族发声》的议论文:

我们进一步要求 ChatGPT 以“高考作文评分标准”对自己的文章进行打分。在满分 60 分的情况下,ChatGPT 自行参考、引用了一些高考作文评分标准,对上文自评得分:50 分,属于较高档次的作文范例。

Claude:《声音的力量》

Anthropic 发布的 Claude 4 大模型在编程领域的实力早已有目共睹。那么,若将它应用于中文写作,尤其是面对今年的高考作文题,它又会有怎样的表现?今天我们测试的是 Claude Sonnet 4,来看它在写作方面的能力展现。

在分析作文题目的过程中,Claude 逐条解析了题干中提供的三个材料,试图从中提炼出共同的情感基调和写作方向,并在此基础上提出自己的写作立意:

最终生成的文章题为《声音的力量》:

详细来看,这篇的整体风格与 Gemini 2.5 Pro(Preview)类似,更偏向于材料解读与概念阐述,而非传统意义上的议论文或记叙文。

当被问及这篇文章可以得多少分时,Claude 并未给出具体数值,而是给出了一个得分区间:48 至 52 分(满分 60 分),并附上了一些评分理由作为参考:

DeepSeek:《血喉》

第三位参赛选手为 DeepSeek R1。

今年 2 月,DeepSeek R1 的发布震动了国内外技术圈。它没有采用传统的有监督微调(SFT)方法来优化模型,而是通过大规模强化学习(RL)提升推理能力,使得模型在回答问题时能呈现出完整的思考过程。那么,当面对这道高考作文题时,DeepSeek R1 是如何思考的?

结果显示,DeepSeek R1 仅用了 27 秒就完成了深度思考。虽然用时不长,但它在“大脑”中演绎出的思路却并不简单:

DeepSeek R1 最终撰写了一篇包含标题《血喉》两个字在内刚刚好 800 字的作文,全文如下:

同样,当让它自评打分时,令人意外的是,DeepSeek 给出了 57 分的高分,也同步了详细的评分理由:

扣分点在于全文稍有瑕疵之处:

就在两天前,Google 推出了 Gemini 2.5 Pro 的升级预览版,并宣称这是“迄今为止最智能的模型”。发布时,谷歌 CEO Sundar Pichai 表示:“它在编程、推理、科学和数学等方面表现更出色,在多个关键基准测试(如 AIDER Polyglot、GPQA、HLE 等)中成绩提升,自上一个版本以来,在 @lmarena_ai 上的 Elo 分数也提高了 24 分。”

而当面对一篇中文高考作文题目时,这款海外模型 Gemini 2.5 Pro(Preview)选择以中英混合的方式进行解析与作答。

整体思考过程如下:

作文标题为《于无声与嘶哑处,听时代的赞美诗》:

仅从内容上来看,Gemini 2.5 Pro(Preview)不像是在写作文,而更像是材料解析。同时,这篇作文字数超过了很多,共有 1818 个字。

不过,Gemini 2.5 Pro(Preview)似乎没有考虑到字数这一点,同样打出了 57 分这样的高分,在立意、结构等方面给出了满分的分析结果:

Kimi:《勇于表达,奏响生命乐章》

我们来看看 Kimi 的长思考模式 —— Kimi 1.5 的表现。它通过完整的推理过程,逐步分析题干中的三则材料,最终提炼出“表达”这一核心关键词:

基于这个立意,Kimi 写下了题为《勇于表达,奏响生命乐章》的作文。

不过,相比其他几款大模型的自评,Kimi 给出的得分最低,仅为 45 分。在评分解析过程中,它倒是没有指出文章存在的一些问题,只是进行了中规中矩的评价:

通义千问:《嘶哑的喉咙与不灭的火种》

相比 DeepSeek R1,于一个多月以前发布的Qwen 3 的深度思考要更短一些,只有 18 秒。

详细过程如下:

Qwen 3 给出的作文标题为《嘶哑的喉咙与不灭的火种》,正文中引用了不少中国戏曲的词名,文化底蕴较为深厚,只是全文篇幅只有 718 个字。

让它自行打分时,Qwen 3 也颇为低调,给出了 52 分的成绩,称可以写得更好:

豆包:《以心之声,唱时代华章

再来看看字节跳动的豆包表现如何?

把高考作文题目作为 Prompt 发给豆包后,其整体反应较快。在思考过程中,自己还尝试先写了一段开头:

最终形成了一篇主题为《以心之声,唱时代华章》的作文,篇幅为 1057 个字。

就这篇作文本身来说,笔者个人还是比较认可的,表达也有一定张力。那么如果交给豆包来打分,它给出的成绩是 54 分。下面是它给出的具体评分与分析:

讯元宝:《沉默中的呐喊:论时代的精神困境与心灵表达》

腾讯元宝目前提供两款模型支持,分别是 Hunyuan 和 DeepSeek。本次测试中,我们选择的是 Hunyuan T1 的深度思考模型。在所有参与测试的模型中,腾讯元宝的深度思考耗时最短,仅为 9 秒。

它撰写的作文题目为《沉默中的呐喊:论时代的精神困境与心灵表达》。

这篇文章的最终得分为 54 分。腾讯元宝在文章立意、逻辑结构、论据、语言表达等多个维度,均有少量扣分:

文心一言:《生命的绝唱:在沉默与嘶吼之间》

接下来,来看百度文心一言的表现。

测试中,我们同样启用了“文心一言”的深度思考模式(X1 Turbo),在作答过程中不仅展示了完整的思考与行动链,还对高考作文题中的三则材料进行了详细分析,并主动寻找充分的论据来支撑每一个观点:

作文标题为《生命的绝唱:在沉默与嘶吼之间》:

问及文心一言如何评价自己撰写的作文时,其给出了很高的评价。在满分为 60 分的情况下,这篇文章获得了 58 分,这也是今天测试的所有模型中得分最高的一篇:

具体的理由如下所示:

讯飞星火:《以歌为刃 破浪前行》

科大讯飞的讯飞星火在深度推理(X1)的模型下,在思考和行动过程中,自行定义了要写一篇议论文文体的作文:

进而生成了一篇《以歌为刃 破浪前行》为主题的文章。

作文得分为 54 分。

以上,便是几款大模型大战今年高考作文的结果!你觉得它们的表现如何,你最看好哪家的模型?欢迎分享你对今年高考作文的看法,以及目前 AI 工具的表现~

——对话 IEEE 首位华人主席、美国双院院士刘国瑞 | 万有引力

📢 2025 全球产品经理大会

8 月 15–16 日

北京·威斯汀酒店

2025 全球产品经理大会将汇聚互联网大厂、AI 创业公司、ToB/ToC 实战一线的产品人,围绕产品设计、用户体验、增长运营、智能落地等核心议题,展开 12 大专题分享,洞察趋势、拆解路径、对话未来。

来源:CSDN一点号

相关推荐