大模型“考生”破题全国一卷高考作文,听听人工智能专家怎么说

B站影视 电影资讯 2025-06-10 10:17 1

摘要:又到一年高考季。6月7日上午,首门考试科目语文落幕,话题“高考语文作文”又一次登上网络热搜。接下来,是各AI大模型的“考试”时间,让市场上主流的大模型来答高考作文,能力如何?新京报记者记者选取了国内外有代表性的DeepSeek、百度文心一言、智谱清言、Chat

又到一年高考季。6月7日上午,首门考试科目语文落幕,话题“高考语文作文”又一次登上网络热搜。接下来,是各AI大模型的“考试”时间,让市场上主流的大模型来答高考作文,能力如何?新京报记者记者选取了国内外有代表性的DeepSeek、百度文心一言、智谱清言、ChatGPT-4o四个大模型进行测试,并邀请多位语文名师给AI作文打分、评价。

在语文名师的眼中,AI大模型的写作能力如何?AI大模型助力写作能力提升的正确打开方式是什么?如何释放AI大模型在语文学科教育教学中的潜力?有哪些注意事项?多位人工智能专家也对此话题进行了探讨。

围绕材料打转,大模型作文对材料理解容易表面化

此次测评选取DeepSeek、百度文心一言、智谱清言、ChatGPT-4o均为通用大模型。在试卷选择上,选择了覆盖省份较多的全国一卷。同时,为了防止使用者个人习惯以及提示词对大模型生成作文的影响,统一选择了不加任何额外要求、将作文题目直输给大模型后生成的第一篇作文。

被众多网友认为“难”的全国一卷作文该如何破题?5个大模型在此次“考试”中,整体表现如何?

全国著名语文特级教师王大绩提到,艾青和穆旦的材料都来自于教材,都写于抗日战争时期;老舍的《鼓书艺人》出现在试卷的阅读文章中,也是反映抗日战争的事情,“指向性很明确,就是要围绕抗战胜利80周年来思考。”从这个角度上来讲,智谱清言、百度文心一言的作文都在写作中提到了这一要素,DeepSeek与ChatGPT-4o则显然脱离了这一背景。

不过,王大绩也提到,如果在破题时联想提高一个层面,那主题也可以是“答案是丰富多彩的,心灵的选择、转折、生活在发展。”

北京市特级、正高级教师何郁提到,作文要切题不仅要理解好三个材料,更要把握好三个材料背后的时代背景及其共同体现的价值观。贺老师同样认为,写好作文的前提是破好题,要读懂命题者的命题思路,“三个材料是有内在的逻辑关系的、不是割裂的,需要把三个材料背后的逻辑关系弄清楚,提炼出一个主题来。”

语文名师贺老师提到,综合来看,DeepSeek、智谱清言、ChatGPT-4o三个“考生”的表现略差,“没有把材料吃透,只是围绕着材料在‘打转’。正常的作文是破题之后,要跳出材料,提炼出自己的观点,并展开论证。”

“大模型虽然语言材料很丰富,但是在客观、科学地分析材料建立自己的逻辑层次和理性思考上就会比较弱。”在何郁看来,大模型在写作议论文时虽然可以按照三段式的逻辑来进行论证,但容易陷入“新八股文”的思路,难以进行真正的层层递进式的有逻辑的写作,“这对大模型来说是很有挑战的。”

与此同时,三位老师也提到了此次大模型写作中普遍出现的问题,“AI味儿”、内容空洞、缺少针对性以及素材案例缺乏。

贺老师提到,大模型写的作文很容易将重心都放在解释材料上,并不能真正理解三个材料之间的联系和命题人的意图,“写得长了就容易翻来覆去胡说八道,看着像百科全书一样,其实就是解释、回答问题,没有独特的个性化的思考。”

何郁也认为大模型写作文对材料的理解会比较表面化,多是泛泛而谈。大模型在写作文时,能建构一定的层次、按照一定的逻辑思路写作,但语句表达比较偏向于抒情,最欠缺的是思想认识和思辨能力,几乎没有针对题目作出独立的思考和判断。

王大绩提出,虽然有的大模型“考生”在写作中提到了抗战,但是作文中几乎没有抗日战争期间的事例素材。

四家大模型写高考作文,谁的表现更胜一筹?

是否切题、语言表达、逻辑结构、认知匹配等是此次大模型作文评判的重要关注内容。记者将全国一卷作文抛给了四家大模型,它们的答案以及各位教师的打分、点评如下:

第一篇:

沉默与歌唱:论苦难中的声音表达(DeepSeek)

点评:

何郁给DeepSeek写的这篇作文打了50分。在其看来,这篇作文突出了“论”,体现了文体特征,同时材料丰富、能够很自然地融入文章之中,有一定可读性。这也是四篇作文中最能体现大模型材料丰富特点的一篇。不过,这篇作文在理解题意上有偏差,对“沉默”“表达”“声音”等关键词的理解,不完全符合题意。

王大绩认为这篇作文得分有可能冲击满分作文。虽然并没有围绕抗战展开,但是聚焦如何对待苦难进行了表达,寓意比较深刻、思路很清楚。

第二篇:

嘶哑亦能成歌,担当铸就力量(智谱清言)

点评:

何郁为这篇作文打了42分。在其看来,这篇作文语言表达通顺,内容层次分明,有局部精彩。缺点就在于理解题意有偏差,表达比较表面化,碎片化解读题目。

贺老师也打了42分。“这篇作文开篇就是在解释三个材料,始终在这里面打转。”贺老师表示,大模型显然没有了解新高考作文的特点。

第三篇

以歌为刃,破茧前行(百度文心一言)

点评:

贺老师给这篇作文打了46分。在其看来,这篇作文从体例上看最符合议论文的要求,有论点“以歌为刃”,也有三个分论点,同时在论据中列举了嫦娥5号、5G等发展成果。不足在于缺乏更多现实的新鲜的素材和个性化的表达,“没有结合当下我们的现实情况,缺乏一种家国情怀、大格局。倒数第二段是硬伤。”

何郁给出了48分,“由歌声关联困境、民族、时代,关联民族危亡,关联砥砺奋进,比较符合题旨。”但这篇作文采用的是三段论式的论证,显八股味道,深刻性、思辨性还是欠缺。标题不好,略显俗套。论述性有所欠缺。

第四篇:

沉默与呐喊之间:个体良知的觉醒(ChatGPT-4o)

点评:

何郁给ChatGPT-4o写的作文打了40分。虽然这篇作文语言基本通顺,层次比较清楚,能联系现实,但是对原材料的理解偏差较大。何郁分析,其第一句话停留在表面,第二句不太准确,第三句一般化。“觉醒”应该是对的,虽然这些“觉醒”是由个体发出的,但指向“个体”有失偏颇。

专家点评大模型写作:体例完整、逻辑性强但情感不足

当前,各大AI大模型的写作能力如何?

清华大学新闻与传播学院、清华大学人工智能学院双聘教授沈阳表示,AI大模型的写作能力涉及两种类型,一种是AI快生,即输入一句话大模型给出一篇作文,这代表了大模型的基本能力,“现在大部分大模型的基本能力已经不错了。”第二种是人机优生,即使用者给出一定的提示词并经过长期使用之后大模型表现出来的能力,“这里面不仅包括了大模型的基本能力,也包括了使用者长期跟它对话之后形成的某种风格。这样的情况下,AI大模型生成作文的能力是非常强的,接近甚至超过了一般的网络写手。”

北京教育科学研究院信息中心副主任唐亮表示,大模型在文本的学习、训练和应用方面有其独到之处,在通过海量的语言文字学习之后,基本上都能达到语法正确、文本流畅的水平,而且可以在文本写作中灵活应用语料库中的各种素材、典故、诗词、名言名句等等,“同时在体例结构、逻辑结构方面来看,大模型也已经达到了较好水平。”

AI大模型在不同文体上的写作表现如何?在沈阳看来,“评论类逻辑性比较强的文体,大模型表现非常好,但是长一些的文章或者情感比较丰富的记叙文,大模型在主体一致性、描述的缜密性上就会显现出很多瑕疵。”

北京邮电大学计算机学院副教授、中国人工智能学会智能服务专业委员会副秘书长王晓茹同样认为,AI大模型写出的高考作文逻辑性比较严谨、论据也比较充分,但是在文学性表达能力、创新性以及深度上仍与人类写作的作文有距离,“相比于议论文,大模型写记叙文的时候机器味儿更重。”与此同时,AI大模型在写作中也有“短板”,“没有情感,或者说情感表达能力很薄弱。可能大模型会很快写出一篇超过大多数人写作水平的作文来,但是受限于现在的算法,它是没有办法真正‘读懂’训练的文章,尽管可以利用海量语料库的训练生成一定的情感,但文学性不足。”

王晓茹分析,影响大模型能力的主要是算力、数据以及算法模型三大因素,在现在算力势均力敌的情况下,数据也就是语料库以及算法模型是影响其能力的关键。“各家也会在基本的语料投喂之后,有针对性地进行微调,这个微调就跟投喂的语料库有关系了。比如有的大模型会偏重于编程创作,有的会偏重于文学艺术,有的会偏重于问题解答等等。”

唐亮认为,大模型训练的逻辑本质上仍然是基于海量文本和语料数据进行模仿和重组,“已有的信息,不管是体例结构、语言风格还是思维模式上,都是在模仿,短时间内很难进行开创性的风格或者思维方式、逻辑方式的呈现,所以耳目一新的阅读体验跟优秀的作文相比还是有一定差距。”同时,唐亮提出,优秀作文也与写作者本身的经历、思考和情感有关,这是作为模仿性、学习型大模型难以企及的地方,“总体来说就是可以形似但是难以神似,在思想深度、原创性、艺术性和情感性方面,跟真正优秀的作文还很难相提并论。”

要善于利用大模型提升写作能力,也要避免过于依赖

专家一致认为,AI大模型在语文教育教学中大有可为。

在唐亮看来,AI大模型可以促进教育公平,只要有网络有终端的地方都可以零门槛使用大模型,让更多人了解接触汇集人类智慧的知识宝库。“也会推动教师角色的转变,从传统意义的知识传授者变成学习过程的引导者、设计者和评估者,更注重提升学生的判断力、批判力、思维能力和创新能力。同时,也会推动学习方式变革,让学生更加主动学习。”

在使用中,AI大模型可以助力拓展知识,“它打破了课堂的空间边界和书本的载体边界,大家通过网络通过APP就可以连接到汇集人类整体知识的巨大知识库,可以获取很多课堂上、书本上获取不到的知识。”同时,大模型还可以帮助学生辅助阅读,“一篇文章从不同的视角来分析来解读,有哪些修辞手法、文章结构如何等等,大模型都可以辅助。”同时,使用大模型进行辅助写作评判,可以及时提供语法、句式、逻辑性等不同维度的反馈,甚至可以提供很多素材,“更重要的是,大模型的介入可以提供个性化的学习辅导。每个学生的写作水平能力和偏好是不同的,利用大模型可以提供更多个性化的训练写作反馈。”

AI味儿太浓、素材陈旧没有创造性……在提及AI大模型写作时,不少公众会有这样的观感。

沈阳认为,目前公众存在一个认知误区,即AI大模型不会创造,也就不具备创新能力。沈阳表示,创新可以分为组合创新、融合创新和颠覆式创新,目前AI大模型基本处于组合创新阶段,即单纯地把两个东西组合在一起,“融合创新是两个东西组合在一起之后,还要给它加一些属性要素,或者做某些调整,让你看不出新东西是从哪里来的。AI大模型做融合创新的能力其实不高,这个过程是需要人去筛选把关的。”而像牛顿提出微积分、爱因斯坦提出广义相对论一样的颠覆式创新,AI大模型能做到的概率极低。

在沈阳看来,“选择即创新”,“AI大模型生成内容太容易了,比如画画,AI大模型作画之后,我来挑选。每一次的标注、挑选都是在帮助大模型进行迭代和优化。”

唐亮则认为,创造性可以分为从无到有的原创性、由表及里的深刻性和不落窠臼的突破性,“大模型在模仿和组合层面的创造性已经达到一定的高度了。但是在深刻洞察、理解层面以及突破性层面的创造性,我觉得还是有很长的路要走。”

王晓茹也表示不用太在意大模型写作的“AI味儿”,而更应该关注大模型写作的思维链。“大模型写作最大的特点是没有语法错误、逻辑十分严谨,而且由于语料库丰富,案例也会十分丰富。”王晓茹表示,学生可以向大模型学习如何扣题、如何搭建合理的作文结构,“大模型的短板的确是情感,但是这一部分是中学生可以通过自己的阅历、在生活中的观察和思考弥补,可以在大模型的作文中加入自己的情感和生活经验以及思考,就会不断提升自己的写作能力。”

沈阳表示,学生可以自己写让AI大模型修改,可以让AI大模型写自己修改,也可以让AI生成作文之后用给定提示词的方式不断调整至最佳状态,“这三种方式都可以锻炼提升使用AI大模型的能力。”

不过,唐亮也提出,无论是教育教学还是家庭教育中,大模型使用都要慎重。“大模型很智能,但是特别注意对学生尤其是对未成年学生的影响,避免过度依赖产生认知外包。”同时,还要避免完全照搬和抄袭、注意大模型的认知幻觉等,“老师要在教学中正确引导学生如何正确使用大模型。

来源:新京报

相关推荐