漆永祥:AI技术背景下高考作文试题的命制、写作和评价

B站影视 电影资讯 2025-06-05 16:52 2

摘要:近年来,人工智能的新发展为语文课程评价带来新契机,也带来新挑战。如何运用人工智能推动语文课程考试评价改革,更好地取得以评促教、以评促学的实效,值得我们深入探究。本期三篇文章从人工智能在高考作文测评中的表现、人工智能赋能语文课堂学习评价、人工智能在语文教学评价中

近年来,人工智能的新发展为语文课程评价带来新契机,也带来新挑战。如何运用人工智能推动语文课程考试评价改革,更好地取得以评促教、以评促学的实效,值得我们深入探究。本期三篇文章从人工智能在高考作文测评中的表现、人工智能赋能语文课堂学习评价、人工智能在语文教学评价中的应用现状等视角展开研讨,期待能够为我们思考人工智能与语文课程评价的内在关联带来有益启示。

AI技术背景下高考作文试题的命制、写作和评价

漆永祥

(北京大学 中文系,北京 100871)

【摘 要】 AI技术快速发展,并在文章写作领域展现出强大优势。AI能够高效完成高考作文试题的命制、写作和评价任务,但存在明显局限:试题命制缺乏科学的考查逻辑和命题意图,生成作文套路化倾向明显,评价环节缺少可靠的依据。尽管AI技术尚无法直接应用于高考场景,但其在辅助高中写作教学方面具有重要价值。未来研究应着重提升使用者的思维品质、完善写作评价标准体系、优化训练数据质量,以推动AI技术与语文写作教育及评价体系的深度融合。

【关键词】高考作文 DeepSeek 测评 AI技术

AI技术和大数据技术迅猛发展,尤其是DeepSeek于近期相继推出开源大模型DeepSeek-V3、DeepSeek-R1及官方App,通过创新实现高性能与低成本的结合,推动AI技术的广泛应用和日常普及。DeepSeek在写作方面的表现尤为卓越。很多学校和教师在积极应用DeepSeek等AI技术提高备课效率、指导学生复习备考时,产生这样的疑问: AI命制的高考作文题唾手可得,能否用于日常训练?AI写作的作文水平高于一般学生,是否可以作为学生模仿的范例?AI评价作文不仅能够提供分数,还能够提供对分数的阐释,AI能否取代人工进行高考阅卷?回答这些问题的前提是要对AI技术真实表现有清晰的认识。笔者在不同的时段多次尝试运用DeepSeek命制试题、写作和评价高考作文,观察AI技术在命题、写作、测评方面的实际水平。

一、AI技术命制高考作文试题的表现与分析

材料作文是高考作文最常见的题型。笔者试拟了一段要求:请针对网络间流行的各种仙侠玄幻剧、霸道总裁剧、穿越剧等,命制一道高考材料作文试题。

针对笔者的指令,DeepSeek给出的作文试题为“大众文化狂欢背后的冷思考”,作文材料如下:

某平台热播剧《星河奇缘》 创下百亿播放量,剧中仙界战神男主角为凡人女主角堕入轮回的桥段引发全网热议。编剧坦言:“观众就爱看这些极致浪漫的剧情,数据证明了一切。”而文化学者指出,当影视作品批量生产“三生三世虐恋”“霸道总裁追妻”等程式化剧情时,折射出的是精神生活的空心化。古希腊哲学家柏拉图曾警告称“过度甜蜜的诗歌会腐蚀理想国”,法兰克福学派更是批判文化工业制造的虚假满足。但不可否认,《梁山伯与祝英台》 《罗密欧与朱丽叶》 等经典同样诞生于爱情母题。

同时,DeepSeek也针对性地给出了写作建议:可以结合“文化工业产品与经典艺术”的辩证关系,围绕“娱乐狂欢与精神滋养”展开论述;必须包含对文化消费的动物性满足/艺术创作的社会责任/集体无意识的情感投射等概念的思辨;引用不少于两个思想资源(如马尔库塞“单向度的人”、本雅明“机械复制时代的艺术”、荣格“原型理论”等)。

从试题的命制和写作思路建议来看,DeepSeek有着明显的缺陷与不足:一是提供的材料冗长,加重了考生的阅读负担;二是柏拉图、理想国、法兰克福学派、文化工业、爱情母题等概念均超出高中生的知识结构与认知范围,增加了考生的理解难度;三是指向不够明确,逻辑不够清晰,扰乱了考生的真正思维。针对这些问题,笔者要求DeepSeek精简试题材料、减少概念使用,使之与高中生的水平贴近。DeepSeek修改后的试题如下:

某平台热播剧《星河奇缘》 创下百亿播放量,剧中“仙界战神为爱堕入轮回”的桥段引发热议。编剧表示:“观众喜欢极致浪漫,数据就是证明。”但也有批评指出,这类“虐恋”“甜宠”剧情过于套路化,可能让观众的精神世界变得单一。经典如《梁山伯与祝英台》 《罗密欧与朱丽叶》 同样讲述爱情,却流传至今。我们该如何看待当下流行文化中的爱情故事?是满足大众需求的娱乐,还是缺乏深度的重复?

DeepSeek确实按照要求优化了试题:删掉部分学术概念,简化一些抽象表述,使用更加直白的语言。从表面看,修改后的试题与高考作文试题的形式已经非常接近,甚至惟妙惟肖:有引入话题的常见事例,有关于事例的观点分析,有不断深入的设问引导。但它与高考作文是形似神异,其所给的材料中,句与句之间虽有一定的关联,然而组合在一起后,却缺少明确的思维链条,在一些话语中不断跳跃,言说的重点忽而是热播剧,忽而是爱情故事,忽而是大众需求,忽而是缺乏深度。这种跳跃有别于高考材料作文的开放性,是一种逻辑的混乱。

笔者再次要求DeepSeek优化试题:修改材料,使其逻辑清晰、写作任务明确。DeepSeek再次修改后的试题如下:

近年来,仙侠剧《星河奇缘》凭借“仙界战神为爱堕入轮回”的极致浪漫桥段创下百亿播放量,编剧直言“观众喜欢这样的设定,数据就是最好的证明”。然而,这类“虐恋”“甜宠”剧情也引发争议:批评者认为其套路化严重,可能使观众的精神世界趋向单一;相比之下,《梁山伯与祝英台》 《罗密欧与朱丽叶》 等经典爱情故事同样以爱情为主线,却因深刻的人文内涵流传至今。这让我们不禁思考:当下流行文化中的爱情故事,究竟是满足大众需求的合理娱乐产物,还是缺乏深度的同质化创作?

DeepSeek按照要求,将材料进行了逻辑分层:首先陈述现象和现实争议,然后将其与经典作品进行对比,最后提出要求思考的问题。经验丰富的语文老师会发现,它要求学生思考的问题是一个“伪问题”,试题将“满足大众需求的合理娱乐产物”作为“缺乏深度的同质化创作”的对立面提出,要求学生在两者间进行选择。事实上,两者既不是对立关系,也不是辩证关系,而是高度相关、共生共存的关系。一个虚假的问题不仅无法测量学生的真实写作水平和思维水平,还会将学生引向混乱,最终导致学生为写作文而胡编乱造。

高考对试题质量有着严格的要求。对于高考作文来说,既要对写作角度有一定的限定性,让考生无法套作、宿构;又要有一定的开放性,不能束缚考生的思维和想象。[1]DeepSeek命制高考作文试题虽然像模像样、立等可取,但距离这样的要求还有相当大的差距。笔者并非否定DeepSeek的作用,而是强调应在了解DeepSeek特点的基础上掌握有效使用它的方式方法。DeepSeek的优势在于它占有海量的信息,能够根据指令快速生成并提供高相关的信息。通过和DeepSeek逐渐深入的对话,教师可以厘清思路,使模糊的想法一步步清晰;或者在这一过程中,根据它提供的更多的信息产生新的灵感、生成新的想法。作为一个交流对象,DeepSeek平等地和每一个对话者交流,它所提供信息的质量,取决于对话者提出问题的品质。换句话说,对话者思维和表达的水平,将决定他获得信息的品质。总之,无论是网络时代之前以传统方式寻找信息,或是网络时代在海量信息中寻找契合自己需求的信息,还是AI时代科学甄别和有效利用现成的信息,都是不容易的。

二、AI技术写作高考作文试题的表现与分析

笔者要求DeepSeek针对2024年高考语文新课标I卷第23题(如下所示)写作了一篇议论文。

23.阅读下面的材料,根据要求写作。(60分)

  随着互联网的普及、人工智能的应用,越来越多的问题能很快得到答案。那么,我们的问题是否会越来越少?

  以上材料引发了你怎样的联想和思考?请写一篇文章。

并且,在其生成议论文后不断要求它再写一篇议论文,连续生成共计十二篇。DeepSeek的表现令人叹为观止,每次接到任务指令后,它都能在短短几秒钟内生成一篇全新的议论文。

快速浏览这十二篇作文,会发现DeepSeek的写作水平,确实超越了大部分学生:每一篇都契合题意,观点明确,段落分明,例证丰富,没有错别字和病句,语句流畅,运用多种修辞手法,甚至称得上文采飞扬。但仔细分析,则会发现这十二篇作文并非完美无缺。

十二篇作文最大的问题在于,它们的语言风格、文章结构、论证方式等如出一辙。

先看十二个标题:

答案之海与问题之舟:在信息洪流中守护思想的芦苇

答案的丰盈与问题的贫瘠:在已知与未知的边界上起舞

答案时代的思维困境:当知识触手可及,思考何去何从?

解蔽与遮蔽:智能时代的知识困境

思维的失重:当知识不再需要沉淀

虚拟与现实之间:数字时代的精神栖息地

数字时代的“记忆困境”:在存储与遗忘之间

在算法的迷宫中寻找思考的阿里阿德涅之线

思维的复魅:在祛魅时代重寻思考的神圣性

思维的反熵:在数字混沌中重建认知秩序

认知的免疫:在信息瘟疫时代重建思维抵抗力

思维的生态学:重建数字时代的认知多样性

单独看每个标题,都可谓新颖独特、寓意深刻、文采斐然。但将十二个标题摆在一起,则会发现它们何其相似。如冒号的使用和题目形式的趋同与僵化;“当……”“在……”的句式;“丰盈”与“贫瘠”、“解蔽”与“遮蔽”、“复魅与祛魅”、“混沌与秩序”、“免疫与瘟疫”等一系列富有哲理概念的二元对立。

再看结构,十二篇作文均由五个段落组成:第一段点题解题,第二、三、四段展开论证,第五段最后点题。

最后看论证方式,十二篇作文采用的均是事例论证,第二、三、四段旁征博引,使用了大量的事例,引用了大量的名言。以《答案之海与问题之舟:在信息洪流中守护思想的芦苇》为例,这篇作文所持观点为“问题会越来越多”。第一段切入话题,引出观点—— 问题的消失是思想的危机。第二段开展论证,通过使用屈原创作《天问》、张衡追问天体运行规律、王阳明格竹七日三个事例,论证推动文明进步的恰恰是刺痛时代的问题。第三段联系现实,通过引用普鲁斯特、苏轼和章学诚的名言,得出保持提问的敏感度在答案触手可及的时代的重要性。第四段引用柏拉图学园门口的警示、爱因斯坦相对论提出的质疑、图灵对“可计算性”的重新定义、AI对勃朗特画风的复现,提出标准化答案正在扼杀创造潜能。最后一段,重申观点并热情呼吁:“答案的丰富不等于智慧的丰盈,问题的稀缺才是真正的精神危机,让我们在享受技术便利的同时,保持像孩童般发问的勇气,守护人类思想这根最脆弱的芦苇。”

DeepSeek生成作文之弊端在于其存在明显的套路化倾向。它写的作文,似乎具备了高考优秀作文的全部要素,细读下来会发现,这些要素是以一种极不自然的方式堆砌在一起的,让人有强烈的不适感。它看似金句频出、旁征博引,但事例与观点无法形成支撑与被支撑关系。例如,所引用的普鲁斯特“真正的发现之旅不在于寻找新的风景,而在于拥有新的眼光”和苏轼“生而眇者不识日”,并不能有效证明“提问的能力在答案触手可及的时代是重要的”这一分论点。此外,段落之间缺少真正的内在逻辑,缺少真实的现实指向。这样的作文不适合作为学生学习的范例。

正如前文指出DeepSeek命制的作文试题的弊端一样,这里严苛审视DeepSeek生成的作文的意图,不是为了否定AI技术的能力,而是为了更好、更深入地认识和思考高考作文。对DeepSeek生成的作文我们并不陌生。它来自对大量所谓高考高分作文的模仿,只是在模仿的过程中将一些特征和问题放大,包括对名言警句、辞藻文采的过度追求,包括以堆砌事例代替论证,甚至包括千文一面、千篇一律。如果要训练AI写出真正好的作文,首先要正确回答下面两个问题:什么是好的高考作文?好的高考作文有什么样的特征? 这就涉及作文评价的问题。

三、AI技术评价高考作文的表现与分析

高考语文全国卷的作文评分量表沿用多年,是高考作文阅卷和日常作文评价的依据。笔者要求DeepSeek按照高考作文评分量表对上述作文进行评价。DeepSeek给出了十二篇作文的分数,同时也给出了详细解析。下面仍以对作文《答案之海与问题之舟:在信息洪流中守护思想的芦苇》 的评价为例进行分析。DeepSeek给该篇作文打了58分,每一项具体给分及给分理由见表1。

表1 DeepSeek作文评分示例

与传统阅卷方式相比,DeepSeek在高效性和一致性方面显示出巨大的优势,它能够一瞬间从多个维度完成对一篇作文的特征提取,并按照一定的标准赋分,但目前来看,其评价的科学性值得商榷。首先,DeepSeek的作文评分依据与高考作文的评分量表并不完全吻合。高考作文评分量表,也分为内容、表达和特征三个维度,但区别在于,它的每个维度满分均为20分,而DeepSeek将内容维度分值提高至25分,将特征维度分值减少到15分。其次,评价依据存在较大的问题。比如,以话题类似但缺少本质关联的古代名人名言论述AI时代独有的问题,被认为是“AI时代特征与古典智慧结合”。第一个问题容易解决,只要使用正确的评分量表训练AI模型即可。解决第二个问题则要困难得多,不仅需要将评分量表中的每一项指标进行细化,以明确其指向,还要提供大量的范文供AI模型学习。

不可否认,DeepSeek在写作水平和效率上超过大部分学生,在评价质量和效率上超过大部分教师,但这种超越是对“从众效应”的模仿和遵循。AI大模型运行的数学原理是根据已输入句子语义向量的值与预训练的神经网络,推测下一个出现的字。① 这种推测基于对海量学习材料特征的提取。我们常说“艺术源于生活,又高于生活”, AI技术亦是如此。如果“生活”是扭曲的、单一的,那么“源于生活”的“艺术”也不可能是自然的、多元的,甚至会走向“互害模式”。

因此,目前制约AI技术直接应用于高考作文评价的瓶颈并非AI技术本身,而在于语文学科内部缺少关于优秀作文的明确标准和共识。《普通高中语文课程标准(2017年版2020年修订)》 中有关于文学写作、思辨性写作与实用性交流的相关要求,语文统编教材有关于各类文体写作的范文、知识、技巧、建议,但两者均不够具体和系统。很多语文教师在教授多年语文后依然存在这样的困惑:什么是好的作文?好的作文仁者见仁、智者见智,很难达成共识。但高考作文必须有一个相对客观统一、足够详细具体、可被广泛接受的量尺,才能保障高考的基本公平。为此,我们至少应当在两个方面做好研究工作。

第一,在评分量表之外,我们需要研制更加精细化的评价标准和具有可操作性的指标体系。我们将AI技术应用于高考作文评价时,应视之为辅助工具,而非完全依赖,它的优势必须以科学的评价标准为前提,否则,它不但不能产生正向效应,反而会产生副作用,甚至对教育造成不可逆的损害。一旦AI将大量看似辞藻华丽其实空洞无物、看似例证丰富其实缺乏逻辑的作文当作范文学习,AI技术的系统性偏差就不再是杞人忧天,而是会真切地影响现实中的应用。

第二,我们不仅需要大量优秀的、个性化的学生作文供AI学习,帮助它理解正确、健康的“情感、态度和价值观”;更需要提供大量不同水平、不同风格且经过科学赋分的学生作文给AI学习,帮助它把握科学评价的宽严尺度。

高考阅卷的质量与使用技术的先进与否息息相关。扫描读卡技术的进步、电脑的普遍使用、评分数据检测软件的开发,大大解放了人力,逐步实现了高考阅卷的科学化和规范化。虽然高考作文的阅卷依然有诸多问题的存在,但相较于二三十年前,阅卷质量大大提升。据笔者了解,在DeepSeek出现之前,已经有多个省份的高考阅卷场尝试使用AI技术作为辅助手段,检查、校正阅卷教师的阅卷质量。其使用依然局限在客观性较强的试题,如高考语文的默写试题。DeepSeek的出现和发展,带给我们新的期待。

回到2024年高考语文新课标I卷作文试题,“随着互联网的普及、人工智能的应用,越来越多的问题能很快得到答案。那么,我们的问题是否会越来越少?”笔者的答案是不会越来越少,但每一个问题都有解决的办法,相信我们会找到的。

注释:

①DeepSeek 等模型通常是基于概率的生成模型(如基于 Transformer 的语言模型)。在推理时,模型会根据输入生成一个概率分布,预测每个可能的输出(如下一个词或句子)。

参考文献:

[1]赵静宇.从写作要求和评分标准看高考作文的症结[J].课程·教材·教法,2015,35(3).

*本文系2024年度教育部哲学社会科学研究重大委托项目“服务教育强国建设的高考综合改革深化实施策略研究”(编号:24JZDW005)的研究成果。

来源:读书圈儿

相关推荐