摘要:教育评价事关教育强国成败,在教育强国建设中发挥着不可替代的战略枢纽作用。决定教育强国成败的因素有两个:一是教育发展方向,二是教育发展质量。教育评价既决定了教育发展方向;同时,也在一定程度上决定了教育发展质量。它既是教育高质量发展的引擎和动力,也是实现教育高质量
感谢您关注“永大英语”!
秦春华
摘要:教育评价事关教育强国成败,在教育强国建设中发挥着不可替代的战略枢纽作用。决定教育强国成败的因素有两个:一是教育发展方向,二是教育发展质量。教育评价既决定了教育发展方向;同时,也在一定程度上决定了教育发展质量。它既是教育高质量发展的引擎和动力,也是实现教育高质量发展的手段和重要保证,同时还是教育高质量发展的有机组成部分。考试招生对教育发展质量有重大影响。它既是加快建设高质量教育体系的关键环节,也是全面提升教育服务高质量发展能力的重要环节,同时还承载着在深化改革创新中激发教育发展活力的重大作用。最终,通过教育评价现代化实现中国式教育现代化,办好人民满意的教育,完成教育强国建设根本任务。面对当前国际教育评价领域的新发展,中国考试招生面临着新的挑战,必须按照党的二十大精神和《教育强国建设规划纲要(2024—2035年)》的要求,积极拥抱快速发展的技术变化,进一步发展教育评价理念,用形成性评价重塑人才培养,通过持续深化的考试招生制度改革,为建设教育强国提供有力支撑。
关键词:教育评价;教育强国;考试招生
强国必先强教。党的二十大报告和《教育强国建设规划纲要(2024—2035年)》(以下简称《纲要》)明确提出,“加快教育强国建设”“到2035年建成教育强国”(习近平,2022;新华社,2025)。“建成教育强国,是近代以来中华民族梦寐以求的美好愿望,是实现以中国式现代化全面推进强国建设、民族复兴伟业的先导任务、坚实基础、战略支撑”(新华社,2024)。在建设教育强国的伟大历史征程中,教育评价居于极其重要的地位,发挥着不可替代的战略枢纽作用。习近平总书记在中央政治局第五次集体学习时深刻地指出,“教育评价事关教育发展方向,事关教育强国成败。要紧扣建设教育强国目标,深化新时代教育评价改革,构建多元主体参与、符合我国实际、具有世界水平的教育评价体系”(新华社,2023)。为新时代推进教育评价改革,加快教育强国建设指明了方向,提供了根本遵循。为什么说“教育评价事关教育强国成败”?如何认识和理解教育评价与教育强国建设的关系?当前国际教育评价,特别是考试招生领域的新发展对我国教育强国建设将产生哪些重要影响?面对这些影响和挑战,应当如何进一步深化教育评价改革,加快推动教育强国建设?等等,都是我们必须要认真回答的重大理论和现实问题。
一、教育评价事关教育强国成败
关于教育评价与教育强国的关系,习近平总书记精辟地指出,“教育评价事关教育发展方向,事关教育强国成败”。这句话是理解教育评价与教育强国关系的“总纲”。
(一)教育强国的概念
首先来看什么是教育强国?关于这个问题,习近平总书记开宗明义地指出:“我们要建设的教育强国,是中国特色社会主义教育强国,必须以坚持党对教育事业的全面领导为根本保证,以立德树人为根本任务,以为党育人、为国育才为根本目标,以服务中华民族伟大复兴为重要使命,以教育理念、体系、制度、内容、方法、治理现代化为基本路径,以支撑引领中国式现代化为核心功能,最终是办好人民满意的教育。”(习近平,2022)这段话清楚地界定了教育强国的本质属性、根本保证、根本任务、根本目标、重要使命、基本路径和核心功能,清晰勾画出了建设教育强国的宏伟蓝图。
在《纲要》颁布的文本中,虽然没有给出对“教育强国”概念的具体明确的界定,但在对总体要求的描述中,也可以清楚地看出教育强国的属性、特质和结构:“全面把握教育的政治属性、人民属性、战略属性”;“加快建设具有强大思政引领力、人才竞争力、科技支撑力、民生保障力、社会协同力、国际影响力的中国特色社会主义教育强国”;“全面构建固本铸魂的思想政治教育体系、公平优质的基础教育体系、自强卓越的高等教育体系、产教融合的职业教育体系、泛在可及的终身教育体系、创新牵引的科技支撑体系、素质精良的教师队伍体系、开放互鉴的国际合作体系,实现由大到强的系统跃升。”这“三大属性”“六大特质”“八大体系”形成了“四梁八柱”,共同构建起中国特色社会主义教育强国的理论大厦。深刻领会上述政策文本的表述和意蕴,有助于我们更准确地把握教育强国建设的方向和进程。
“教育强国”原本是一个政策术语,其概念最早可见于《国家中长期教育改革与发展规划纲要(2010—2020)》(石中英,2023)。其实,一说起“教育强国”,人们首先想到的是“教育救国”。从19世纪末至20世纪上半叶,在各式各样的救亡图存方略中,通过教育救国是最具社会影响力的主张之一,吸引了黄炎培、陶行知、梁漱溟等大批仁人志士投身其中。当然,“教育救国论”早已被历史实践证明行不通,但通过教育实现救亡图存却是中国现代教育,特别是高等教育诞生的重要基因之一,至今依然影响着人们对教育与国家关系的认识。这种认识可以简单概括为一句话:通过教育使国家强盛。
(二)教育评价事关教育发展方向
那么,教育怎样才能使国家强盛?决定教育强国成败的要素是什么?答曰:一是方向;二是质量。习近平总书记对于教育方向念兹在兹,“培养什么人,为谁培养人,怎样培养人”,既是教育的根本和首要问题,也是建设教育强国的核心课题。他反复强调,“我国是中国共产党领导的社会主义国家,这就决定了我们的教育必须把培养社会主义建设者和接班人作为根本任务,培养一代又一代拥护中国共产党领导和我国社会主义制度、立志为中国特色社会主义奋斗终身的有用人才”。这是关于“培养什么人”。 “为党育人,为国育才”,这是关于“为谁培养人”;“在坚定理想信念上、在厚植爱国主义情怀上、在加强品德修养上、在增长知识见识上、在培养奋斗精神上、在增强综合素质上下功夫”(新华社,2024),这是关于“如何培养人”。以上是“成”的方向。同时,他也指出了“败”的方向:“我们的教育绝不能培养社会主义破坏者和掘墓人,绝不能培养出一些‘长着中国脸,不是中国心,没有中国情,缺少中国味’的人!那将是教育的失败。教育的失败是一种根本性失败。”他认为,“这是推进教育现代化、建设教育强国必须把握的大是大非问题,没有什么可隐晦、可商榷、可含糊的”(习近平,2024)。
是什么决定了教育的发展方向?答曰:教育评价。因为教育的发展方向,不是只写在文件上、标语上和口号上的,必须要落实到实践中。现在的关键问题不是在认知上知道不知道答案——所有的人都知道——而是如何在教育实践过程中不折不扣地贯彻落实这个答案,特别是如何“在六个上下功夫”,保证教育动作在实践中不偏离正确方向,不走样,不逆向。这就必须要发挥教育评价的关键性作用。正如习近平总书记形象地指出的,“学生培养得怎么样,要看拿什么样的尺子去衡量,以什么样的眼光去发现”(习近平,2024),这把衡量的尺子,就是教育评价。你使用的尺子是考试分数,还是对于教育者在“六个上下功夫”的程度与结果的评判?你看学生的眼光是依据考试分数,还是依据他/她在“六个上”的表现所做出的综合评价?尤其是,当对分数的追求和对“六个上”的追求发生冲突的时候,你会在内心里和实际行动中选择哪一个?从根本上说,“六个上”体现的就是“德智体美劳”全面发展的要求,其中没有一个是在提高考试分数上下功夫(分数仅仅是“智”的非常微小的部分,甚至和“智”没什么直接关系)。试问,理想信念、爱国主义情怀、品德修养、知识见识、奋斗精神、综合素质,这六个方面中有哪一个是和分数紧紧挂钩呢?如果我们只是在文件、会议和口号上强调要在“六个上”下功夫,但实际工作中却扎扎实实地在提高考试分数上下功夫,以分数论英雄,我们不就成了阳奉阴违,口惠而实不至,在事实上与教育强国建设南辕北辙了吗?
从教育评价发展史角度看,对分数的追求是前现代乃至古典时期对教育评价的狭隘理解。这种理解认为评价就是用考试的方式来考察学生对知识的记忆状况。尽管布鲁姆的“教育目标分类学”在知识之上提出了“领会”“应用”“分析”“综合”“评价”等更高阶的思维和目标,并进入考试考察的范畴,但其本质属性没有发生根本性变化。学校依旧被视为工厂,学生被视为原材料(学苗)和产品,教师则是加工者。如此一来,学生这一产品是否“合格”,教师教学有何“成效”,学校教育是否“成功”,都可以通过考试和分数来加以衡量。现代教育评价理论的奠基者拉尔夫·泰勒曾激烈批评过这种模式“无法客观地评定旨在帮助学生学习的各种学程设计的进展情况,会使学生误以为这就是期望他们学习的东西”(Tyler,1949)。学生们也许会因为短时记忆的准确而在考试中获得高分(事实上,这种短时记忆也会被迅速遗忘),但却因此丧失了更为根本和重要的东西,例如高阶的认知能力和思维方式,更不用说情感、态度、价值观和完整人格的养成了。从这个意义上说,通过教育评价影响、转化乃至改变教育的实际发展方向,的确关系到教育发展质量,关系到教育强国建设成败。
(三)教育评价事关教育质量
质量是决定教育强国成败的第二个要素。我们要建设的是教育强国而不是教育弱国。“强”是教育强国的关键词,也就是要建立一个强大的高质量教育体系——教育质量高,综合实力强。与经济领域类似,“质”是和“量”相对的概念。在从教育大国向教育强国系统性跃升的过程中,必然意味着教育质量的系统性跃升,是从“量”的外延式增长转变为“质”的内涵式发展的跃升。也就是说,判定一个国家的教育体系是不是强大,主要不是看“量”的数据——虽然“量”是基础,非常重要——更主要的是看“质”的水平。那么,如何衡量一个国家的教育体系的质量高低呢?一是要看人才培养的质量,特别是创新性人才培养的数量和质量;二是要看各级各类教育机构,特别是学校的办学质量,这又和教师队伍的素质紧密联系在一起;三是要看教育体系对于国家社会发展的支撑能力,特别是科技创新成果源源不断的产出;四是要看教育体系的结构是否合理和均衡,特别是教育公平程度。
不难看出,在上述所有方面,教育评价都发挥了极其重要甚至是不可替代的作用。它既是教育高质量发展的引擎和动力,也是实现教育高质量发展的手段和重要保证,同时还是教育高质量发展的有机组成部分。教育高质量发展本身就包含着高质量的教育评价。
具体来说,科学的教育评价对教育高质量发展的促进作用主要是通过以下功能实现的:
一是导向功能。这是教育评价的首要功能,明确教育的目标和方向。有了科学的教育评价,我们对于人才培养的目标、路径和过程,就会有比较清晰的认知、理解和判断,才能使教育活动不偏离正确轨道。二是诊断功能。教育评价中的信度和效度是判断教育质量的重要标准和依据。通过科学的信度、效度分析,对教育活动的各个环节进行诊断,及时发现教育过程中存在的问题和不足,为持续改进教育过程,提升教育质量提供依据和支持。三是调控功能。通过教育评价可以监测不同地区、不同学校的教育质量差异,帮助教育行政管理机构通过优化资源配置,不断缩小地区间教育差距,提升效率和公平。四是激励功能。在科学的教育评价指引下,教育主体更加积极地参与到教育活动中,教育教学过程得到了重塑。教师的热情得到激发,教师素质得到不断提升,成为教育评价的设计者、实施者和推动者;通过正面反馈和适当的奖励机制,学生找到内生的学习动力,可以更好地提升学习效率,改善学习效果。五是监督功能。教育体系的质量高低,需要通过教育评价来进行评估和判断。在科学的教育评价指引下,教育变成了人有意识的自觉的认知管理活动,而不再是仅仅凭感觉和经验办事,变得有标准可循。例如,有了质量监控标准,教育管理者就可以清楚地意识到,我们的教育办得怎么样,距离高质量标准还有哪些差距,如何去弥补这些差距,以实现教育的更高质量发展,等等,从而为教育管理者提供决策依据,有助于提升教育管理的科学性和有效性。六是反馈与沟通功能。教育评价的结果可以为教师、学生、家长和社会各界提供反馈,促进家校社合作,形成更加良好的育人环境。
科学的教育评价之所以对建设高质量教育体系具有重要作用,一个重要原因在于考试招生。教育评价不等于考试招生,但考试招生是教育评价最重要的组成部分。首先,考试招生是加快建设高质量教育体系的关键环节。习近平总书记深刻地指出:“建设教育强国,基点在基础教育。”“建设教育强国,龙头是高等教育。”(新华社,2023)联接龙头和基点的,就是考试招生。一个科学合理强大的考试招生制度,承上启下,下可夯实基础,上可支撑龙头。基础不牢,地动山摇;“基础教育搞得越扎实,教育强国步伐就越稳、后劲就越足”(习近平,2023)。考试招生是衡量基础教育搞得扎实不扎实的一把标尺。作为“指挥棒”,考试招生对于基础教育产生着巨大的影响。如前所述,如果各级各类招生仍然以分数为唯一录取标准,势必会加重“唯分数论”的顽疾,从而制造出大量的“失败者”;反之,如果考试招生这把标尺变了,基础教育的管理者、教师、学生和家长的行为自然而然就会随之发生不同程度的改变。另一方面,考试招生对高等教育也有重要影响。龙头抬高,逐浪滔滔。从衡量高等教育发展质量的要素来看,考试招生通过直接影响生源质量,间接影响了高校的学科建设和原始创新能力。一所大学的声誉或者说质量,很大程度上是由其学生在入学时的高竞争性和毕业生在劳动力市场上的竞争力所决定的。世界上的哈佛、耶鲁、牛津、剑桥,中国的北大、清华,之所以能够在高等教育格局中占据龙头地位,拥有优秀生源是最主要的因素之一。事实上,无论哪一个大学排行榜,生源的结构和质量都是重要的评价维度,而决定生源结构和质量的,非考试招生莫属。
其次,考试招生也是全面提升教育服务高质量发展能力的关键环节。国家高质量发展的动力源是创新性人才的数量和质量。今天,国际竞争的走向和成败主要取决于人才竞争,它从根本上决定了一个国家包括军事实力、科技实力、经济实力和国际影响力等在内的各种软硬实力。创新性人才的存量和增量一靠流动(吸引),二靠培养,尤其是自主培养,而选拔则是培养的第一关。考试招生直接关系到人才选拔的质量,特别是对教育强国建设产生重大影响的拔尖创新人才。实际上,无论是“加强拔尖创新人才自主培养,为解决我国关键核心技术‘卡脖子’问题提供人才支撑”,还是“聚焦国家重大战略需求,有的放矢培养国家战略人才和急需紧缺人才,提升教育对高质量发展的支撑力、贡献力”抑或是“统筹职业教育、高等教育、继续教育,推进职普融通、产教融合、科教融汇,源源不断培养高素质技术技能人才、大国工匠、能工巧匠” (习近平,2022),考试招生均发挥着不可替代的作用。它从根本上决定了上述各层次领域人才选拔的质量和水平。
第三,考试招生还承载着在深化改革创新中激发教育发展活力的作用。如何在深化改革创新中不断激发教育发展的活力?最关键的是要让社会中的各个群体都能够发挥主体性,积极释放潜力,有强大动力踊跃投身到教育发展改革创新的洪流中来。动力来自哪里?来自各个主体的参与和获得。这就涉及到不容回避的教育公平问题。一个不公平的考试招生制度显然不可能得到广大人民群众的拥护;一个不能让最广大的人民群众满意的考试招生制度也不可能激发出人们教育发展改革的积极性、创造力和活力。正如习近平总书记所指出的,“教育公平是社会公平的重要基础,也是建设教育强国的内在要求”(习近平,2023)。一个强大的高质量教育体系必然是公平的教育体系。如何更公平地分配招生入学机会,是任何考试招生制度必须回答的基本问题。
(四)教育现代化
教育强国建设的基本路径是教育现代化,即教育理念、体系、制度、内容、方法和治理的现代化。当然,这里的现代化指的是中国式现代化。现代化的教育主要不是一个时间概念,而是具有和传统教育不同的属性和功能,通过现代化的教育理念、体系、制度、内容、方法和治理,培养出具有现代性的人,最终实现人的自由全面发展,即人的现代化。教育现代化的一个重要引擎是教育评价现代化。超越分数的“盖棺论定”,直接催生了现代化的教育理念。比如,第四代教育评价理论突出强调了被评价者(学生)在评价过程中的参与者身份,把学习的主体地位还给了学生,让学生成为学习的主人(Guba & Lincoln,1989),这就比传统上以教师为权威的教育理念进步了许多;再比如,形成性评价对教学的内容和方法进行了根本性再造,使传统课堂发生了革命性的变化,甚至对教育治理也产生了深远影响。在构建学习共同体的过程中,教育管理者、教师、学生和家长等的行为都在发生不同程度的改变,通过各种方式,运用各种技术和工具,不断提升学生的主体性,充分释放师生的创新活力,从而实现人的全面而自由的发展。
由此,我们可以回答本文提出的第一个问题:为什么说“教育评价事关教育强国成败”?如何认识和理解教育评价与教育强国建设的关系?
决定教育强国成败的因素有两个:一是教育发展方向;二是教育发展质量。综合上文分析,教育评价既决定了教育发展方向;同时,也在一定程度上决定了教育发展质量。它既是教育高质量发展的引擎和动力,也是实现教育高质量发展的手段和重要保证,同时还是教育高质量发展的有机组成部分。教育评价之所以对教育发展质量有如此重大影响,一个核心因素是考试招生。考试招生既是加快建设高质量教育体系的关键环节;也是全面提升教育服务高质量发展能力的重要环节;同时还承载着在深化改革创新中激发教育发展活力的重大作用。最终,通过教育评价现代化实现中国式教育现代化,办好人民满意的教育,建成教育强国。
二、当前国际教育评价领域的新发展对中国考试招生的挑战
教育强国的“强”是指在世界范围内全球意义上的强大,是在和其他国家,尤其是和教育发达国家的比较和竞争中得到广泛认可而形成的,因而是“具有世界水平”的强。就教育评价,特别是考试招生而言,是否拥有先进的教育评价理念,科学的评价方法和工具,完善平衡的评价体系,以及是否通过教育评价推动了真实教育发展等是衡量教育评价质量和教育强国建设水平的重要依据。一个拥有强大教育体系的国家,必然拥有高水平的教育评价体系;反之,一个教育评价水平不高的国家,难以和其他国家在相同水准上进行对话、沟通和交流,也很难称得上是名副其实的教育强国。
进入新世纪以来,国际教育评价领域的发展日新月异。特别是伴随着生成式人工智能的突破性进展,人类正在进入数字化测评新时代。依托于大语言模型、大数据分析、机器学习、自然语言处理等先进技术的飞速进步,教育评价正从传统的纸笔考试迈向智能化、个性化和全球化的方向,呈现出一系列革命性的新变化和新特征。这些变化和特征给中国的考试招生带来了严峻的挑战。当然,同时也意味着机遇。
(一)数字化考试的颠覆性变革给中国考试带来的压力
近年来,世界各国或国际组织相继推出一系列推进全数字考试的新举措。以OECD(国际经合组织)设立的PISA测试为例,基于电脑的评价(CBA, Computer-Based Assessment)是其重要转型(OECD,2010;OECD,2016)。自2015年起,PISA的测评逐步从传统的纸笔测试(PBT,Paper-based Test)转向基于电脑的测试(CBT,Computer-based Test),以更好地适应21世纪的教育和技术环境。CBT提供动态情境,通过数字化的方式评估学生的阅读、数学和科学素养等核心能力,并支持自适应测评;非营利性组织国际教育成就评价协会(IEA,International Association for the Evaluation of Educational Achievement)组织的国际数学与科学教育成就趋势调查(TIMSS,Trends in International Mathematics and Science Study)中,所有参与国与地区在2023年全部完成数字化过渡,实现全数字化测评(朱忠明,张令伟,2024)。2024年3月,SAT和PSAT实行机考,美国教育考试全面进入数字化时代;2022年起,英国的国际雅思考试全部转为线上;等等。上述变革固然有新冠疫情催生的影响,但毫无疑问,全数字化教育测评目前在技术上已经完全成熟,正在世界范围内大规模实施。就像人类历史上曾经出现过的历次技术迭代一样,传统纸笔测试退出历史舞台只是时间问题。
实际上,数字化考试不只是对传统纸笔考试的简单转移——由线下转移到线上——“更在于考试构念、命题模式、测试方式、结果使用等方面发生实质性的全面变革”(辛涛,杨丽萍,2025)。它从根本上颠覆了建立在20世纪教育心理测量学基础上的测评。在数字化考试环境下,教育测评的目标与目的、测评的实施者和参与者、测评的内容和形式、测评的数据、测评的模型和应用场景都发生了根本性变化,对于学习和评价的关系产生了深远影响。
教育考试数字化的推力主要来自成本和效率。首先来看成本。大规模在线监考的实现使得考生在任何时间和任何地方可以方便地参加考试,从而大幅度降低了人工监考的组织者成本和考生的经济成本及其他成本。比如,轻量型的多邻国测试,目前其成绩已被斯坦福大学等多所世界顶尖大学认可。该测试由AI全程主导:首先由AI生成多模态题目——测试考生的听、说、读、写四种技能,采用拖放题、拼写题、句子重排题、听写题、口语表达题等多种题型;实行全线上远程测试,考生在家中使用电脑摄像头+麦克风完成测试。AI全程监控考试过程,并检测考生的眼球运动、面部表情和背景音频。一旦AI检测到可疑行为,考试将被标记为“异常”并重新审查。考生完成考试后将录制文件上传,由AI进行第一道审查,然后进行人工审查,审查通过后发布成绩认证(Cardwell et al., 2023)。
数字化测评使用机器阅卷和评分,一方面极大地降低了人工阅卷评分的成本;另一方面,极大地提高了阅卷评分的效率,在考试结束后可以快速为考生提供综合性个性化的测评报告。例如,和传统考试只提供一个冷冰冰的分数不同,SAT改革后(见表1),成绩公布周期由原来的考后数周缩短为几天;测评报告中不仅提供了分数,还包含了学生的兴趣、表现、目标及发展建议等信息,并与其求职就业建立联系。
面对国际上风起云涌的教育考试数字化浪潮,中国该何去何从?必须看到并坦率地承认,这对中国考试,特别是高考带来了强烈冲击。首先,数字技术与人工智能的结合使教育考试的面貌焕然一新。特别是,生成性人工智能的飞速发展使传统高考的意义和价值再次被重新评估。今天,AI几乎横扫了人类所有考试领域,并在考试成绩上碾压人类。就像当年AlphaGo在下围棋这件事上让人类不存在任何取胜可能性一样,生成式人工智能体在中国传统高考中取得满分是指日可待之事(在其他考试中也是一样)。在这种情况下,传统纸笔考试基本丧失了意义和价值。试问,对于大学招生机构而言,在AI面前,一个考生在高考中考多少分是达到入学标准了呢?理论上,无论他/她考了多少分,永远有一个AI在那里,它可以考满分,而且速度更快,而人类几乎不可能在高考中拿到满分。按照现行大学招生录取的逻辑,如果大学要按照高考分数录取学生的话,AI的高考成绩是否应该被列入排序呢?因为它参加了考试,并且取得了更高的分数。钱颖一曾经预言:“人工智能的发展将使中国传统教育优势荡然无存。”这个预言正在成为现实。在生成式人工智能时代,也许我们将再次面临100多年前科举制曾经面临的窘境:一个在科举考试中登第的状元,在西方的坚船利炮面前却一败涂地。面对席卷全球的新的革命性技术变革,我们要更加深入地思考中国高考改革的方向和路径,勇敢地面对、迎接和拥抱已经来临的挑战。其次,数字考试相对于传统纸笔考试所呈现出来的巨大的效率和成本优势,促使我们要再度评估传统高考组织模式的成本和效率问题。传统的观点认为,成本低廉是中国高考制度的一大优势(朱沛沛、刘海峰,2022),但这一成本优势在数字考试面前则是“小巫见大巫”了。现在看来,和轻便灵活的数字考试相比,传统纸笔高考的组织成本巨大、臃肿僵化的劣势一览无余。事实上,一年一度的高考,万众瞩目,消耗了大量人力物力财力,考试招生“战线”的工作人员战战兢兢,压力巨大,生怕出一丁点儿事情。最后的结果不过是将一群人按照分数高低做了排序。如果拿传统纸笔考试和数字考试相比,打一个不恰当的比方,数字考试就像是汽车,传统纸笔考试就像是马车。二者同样都可以载人载货,可以进行交通运输,但效率不可同日而语。在汽车时代,你需要的是去考驾照,而不是去找一匹跑得更快的马。未来有没有可能在高考中引入数字考试模式?应当说,在技术实施上并无太大障碍,也许可以在一定范围内进行试点。第三,在人工智能时代,在高考中可以使用AI工具吗?这又是一个两难选择。如果不允许使用,就像至今在高考中不允许使用计算器一样,弃工具而不用,在AI时代显得越来越荒谬;如果允许使用,又会再次因为数字鸿沟而受到公平的质疑。如何能够既有效地使用工具,又不致因此影响公平,是AI时代考验考试招生界智慧的重要面向。
(二)个性化测评进入爆发式增长阶段
我们知道,“三千年前学校诞生,开始了人类有目的、有计划、有组织的文明传承;三百年前现代教育制度诞生,开始了人类大规模标准化的教育”(袁振国,2024),这就是伴随着工业革命而来的标准化学习。我们今天熟悉的学校、学制、学位等等和教育相关的制度安排都是工业革命的产物。然而,“因材施教”始终是人类最高的教育目标,能够实现个性化学习是人类关于教育的梦想——尽管它从未实现。今天,技术的飞速发展开启了人类大规模个性化教育和学习的序幕。测评是伴随着学习产生的。有了学习的活动、过程和内容,自然需要测评紧随其后。有了个性化学习,个性化测评应运而生:超越经典测量理论,建立在项目反应理论基础上的自适应测评,今天已经在全球多个大型考试中得以运用;美国的AP考试,已经允许考生可以根据自己的兴趣、能力和擅长的领域,自行选择考试题目;在PISA的人机交互测评和ATC21S的人机合作测评中,都可以根据学生的不同情况,要求他们“完成共享信息、制定规则、验证假设、分工协作等过程,最终达到问题解决的共同目标”(檀慧玲,李文燕,万兴睿,2018)。
然而,面对国际上个性化测评大发展的局面,中国的处境更加微妙。传统中国社会的历史文化使我们在应对新测评技术时可能会遇到更大的困难,更加力不从心。困难主要不是来自于技术——技术已经不再是障碍——而是来自于外部社会环境。现代教育评价,特别是教育测量技术是建立在心理测量学基础上的,上文提到的新一代数字化测评技术是建立在数据驱动的计算机科学基础上的,二者和中国考试文化的逻辑不相容,甚至可能造成严重冲突。比如,根据经典测量理论(CTT)和项目反应理论(IRT)设计的锚题对于考试的一致性和准确性都有重要价值和意义,但中国社会对于“猜题”、“押题”的狂热和“泄题”的恐惧,使得对锚题的使用遇到极大限制——因为它必须在不同的考试中反复出现才能发挥“锚”的作用;再比如,自适应测评已经在国际考试测评领域屡见不鲜,并呈现出越来越大的优势。但自适应测评很难在中国的高利害考试中采用,更不用说高考了。自适应测评可以允许每个参加考试的学生拿到的题目不一样——因为每个学生的能力不一样——这一点直接挑战了社会公众对于考试公平的认知。中国人普遍认为,只有同样的考题才是公平的,“全国一张卷”是最公平的考试;采用不同的考题就有“猫腻”:为什么我和他/她的试卷不一样?既然“分数面前人人平等”,不一样的考题之间的分数怎么可能进行比较呢?基于同样的原因,个性化测评也很难在高利害考试中实施。
今天,我们对于分数的认识仍然停留在原始分数上——考生答对了多少题,就得到多少分。但建立在统计技术基础之上的现代教育测评理论则认为,原始分数对教育者而言并没有太大意义。一个较低的分数可能意味着学生较低的学业成就或负面态度,但那也可能是参加该次考试的其他人的典型情况。更重要的是,原始分数无法为学生下一步的学习提供建议性的信息。真正有价值的是 Z 分数或标准分数。它通过报告个体在群组中的相对位置,以及在不同考试之间进行组间比较等为教育者提供更富有指导性的信息。然而,无论是 Z 分数还是标准分数,都因为对原始分数做了“技术处理”而很难被中国人接受,甚至会酿成重大社会性事件,由此造成的科学性损失,令人扼腕。
中国人关于考试招生的历史传统、社会心理与考试文化要求我们在面对外部世界的技术变革时要有更大的耐心和更高超的公众说服技巧;同时,还要处理好全球趋势与本土实践之间的关系,的确非常艰难。此外,做好专业知识的科普工作,提升社会公众和教育工作者对教育测评常识的认知水平也是应有之义。这也许是未来建设教育强国中教育评价领域面临的最大挑战。
(三)适应新时代素养要求的测评技术不断涌现,原来不可测量的能力技能正在逐渐变得可测
随着时代的发展,教育已经超越单一学科知识而聚焦于学生发展所需要具备的核心素养,但如何测评这些素养依然是一个巨大的难题。传统上,人们认识到素养比能力重要,能力比知识重要,但这是理念上的认识;一旦进入到具体测评实践,就仍然不得不在知识层面徘徊。这就是为什么最初完全脱离具体学科内容的SAT考试不得不进行重大改革的原因,同时也是美国另一重要的大学入学考试ACT 在竞争中取得优势的原因。在传统测评技术的限制下,人们不得不依赖于知识进行测评,进而发展出一套“迁移”理论,证明知识可以“迁移”为能力,以此来说明知识和能力之间的关系。但知识是否真的能够“迁移”为能力,迄今为止依然是一道未达成共识的难题。技术的发展则突破了这一限制。以PISA为例。十几年来,PISA推出了一系列关于素养的评估,如数字化测试素养与ICT(信息与交流技术)素养评估(2009年)、财经素养评估(2012年)、创造性思维评估(2022年)、外语素养与数字世界中的学习素养评估(2024年),等等(OECD,2025)。这些原来被认为不可测评或很难测评的素养正在逐步变得可测(辛涛,杨丽萍,2025)。再比如,团队协作是一个人最重要的能力之一。由ATC21S(Assessment and Teaching of 21st Century Skills,21世纪技能的评估与教学)提出的协作式问题解决任务(Collaborative Problem Solving, CPS),被纳入PISA 2015的评估体系(OECD,2017)。其测评的“协作解决问题”能力,涉及到了人与人的合作与人机交互,其中包括:识别团队中其他人的观点的能力;以建设性的方式贡献知识、经验和专业知识;确定贡献的需要以及如何管理它们;识别解决问题所涉及的结构和程序;作为团队成员,建立和发展团体知识和理解;个体具备的能力,使其能够有效参与由两个或多个计算机代理共同解决问题的过程,等等。在这一过程中,各方通过共享对问题的理解和必要的努力,并整合彼此的知识、技能和资源,最终达成解决方案。系统则记录了学生在任务中的交互行为(如点击、交流对话和工具使用的顺序),并据此评估其协作能力、领导力和信息共享的能力(Chai et al., 2024)。
核心素养是当代教育中的重要议题,也已被列为中国学生最重要的培养目标。然而,在实践中,一线的教师和学生仍然无法准确把握核心素养,更不用说如何在考试和评价中测量核心素养了。实际上,通过传统的纸笔考试测量核心素养相当困难。人们在认识上都知道并承认团队协作能力在一个人成长中的重要性,但在一个高度竞争性的考试环境下,在教育教学中对学生进行诸如“团队协作能力”的培养几乎成为天方夜谭。“合作学习”与“团队协作”沦为赛课和公开课的表演性项目,在日常教育教学中难觅踪迹。无论教师多么强调团队协作的重要性,在实际生活中,学生学到的只有竞争,而非合作。我女儿的亲身经历在一定程度上揭示了当前这种高竞争的残酷:有一天她因为生病没有到学校。她问同学今天的作业是什么。几个同学都告诉她没有作业。等她第二天回到学校,发现老师留了一大堆作业。我永远忘不了孩子回家后的情形。她泪眼汪汪地问我:“爸爸,你告诉我做人要诚实。为什么明明有作业,同学们都对我说没作业?”原因很简单。学生从合作中没有得到收获,但却从竞争中得到了他/她想要得到的利益,他/她当然会选择竞争而不是合作。因此,通过考试评价的改革,运用上述新技术和新方法,使孩子们能够亲身体验到与他人合作带来的快乐和利益,也许就能实现真正培养出孩子的核心素养的育人目标。
(四)由AI命题所带来的一系列风险不可忽视。
和传统上由人命题相比,机器命题正在呈现出越来越大的优势。这种优势不仅体现在对知识的考查上,机器会占有更全面的资料和更快的处理速度,不会出现“重题”;更重要的是,它在理论上可以生成无穷无尽的超越知识测量素养的情境式题目。今天,在PISA测试中,机器自动生成题目已经越来越成熟。前述多邻国测试中,题目全部由AI生成。读者可以想象一幅场景:在左图中,人被隔离在一个空间中命题(俗称“入闱”);在右图中,由一台机器命题。前者正是我们一千多年来从科举制时代就采用的命题方式;而后者是当今世界方兴未艾的命题趋势,二者相比其效率和成本可想而知。打一个比方,用机器命题就像在战争中使用无人机。现在的关键问题是,机器的拥有者不只是命制高考题的政府,其他机构甚至个人也同样可以拥有,甚至拥有的机器可能质量更高。理论上,一个机器命制的所有题目也同样可以被另一个机器命制出来。当然,在命题过程中,一定会有人的介入,但其基本的逻辑不会发生大的改变。由此而来,在AI时代,押题与反押题的博弈将会变得更加复杂。那些家庭经济背景更强大的孩子会因此而占据更大的优势吗?事实上,今天的高考已经开始引入AI命题。这场博弈才刚刚拉开序幕。
(五)数字鸿沟
所谓数字鸿沟,是指基于社会经济地位、地理位置、教育背景、年龄和性别等因素,人群之间在获取和使用信息技术资源(如互联网、智能设备、AI和大数据技术)方面存在的差距。它包括但不限于:获取鸿沟、使用鸿沟、能力鸿沟、结果鸿沟、经济鸿沟、技术鸿沟、代际鸿沟、教育鸿沟、性别鸿沟,等等(见表2、表3)。不同社会经济地位、不同年龄、不同性别的群体在面对AI时的差距正日益加大。这个世界有可能变成两个世界吗?一个是数字世界,另一个是被数字时代抛弃的世界。数字鸿沟既涉及到教育公平问题,也对效率产生深远影响,对于中国考试招生来说,将是日益紧迫需要面对的重大问题。
上述国际教育测评领域的新发展和新特征表明,教育评价正在从静态的、基于分数的考试转变为互动的、由AI增强的、基于反馈的学习体验。 在教育评价理论中,评价是为了发展(IMPROVE)而不是证明(PROVE)的理念振聋发聩,然而,如何在实践中实现这一目标仍然是巨大的难题。技术进步使得这一难题的解决变成可能并日益加速。进入 AI 时代,教育评价正在成为人们个性化学习的利器,为促进人们的终身学习和发展做出越来越大的贡献。这是历史发展的大势所趋。正因为此,《纲要》对此做出了重大部署。在第二十六条中明确要求“建立基于大数据和人工智能支持的教育评价和科学决策制度”。面对日新月异的外部世界变化和内部世界约束,我们唯有按照习近平总书记的要求,“紧扣建设教育强国目标,深化新时代教育评价改革,构建多元主体参与、符合我国实际、具有世界水平的教育评价体系”,落实好《纲要》的各项部署,进一步持续深化考试招生制度改革,才能更好地应对复杂多变的局面,实现由大到强的系统性跃升,为教育强国建设提供坚实基础和有力保障。
三、持续深化考试招生制度改革
当前,教育综合改革正在进入深水区。深水区意味着面临的改革任务更加复杂、艰难甚至是凶险。按照《纲要》的规划,用十年时间建成教育强国,从目前的基础来看还有相当多的工作要做,任务的确非常繁重。其中的重中之重,难中之难,非教育评价改革莫属。结合上文分析的国际国内形势变化,我认为,持续深化考试招生制度改革,用教育评价这杆如椽巨笔,写好教育强国建设这一鸿篇巨制,至少需要做好以下四方面工作:
(一)积极拥抱快速发展的技术变化,将国际测评领域的最新发展应用于日常的教育教学过程之中
之所以强调是“日常”,是出于现实性考虑。目前,在高利害的终结性考试中使用上述新技术的心理和社会舆论准备都不足。也就是说,在面对全球范围内教育评价的新技术和新发展时,我们正处于进退维谷的两难境地:快速融入国际技术变革的洪流之中,我们的历史传统和社会大众心理尚不支持;回避国际技术的飞速变化,随着时间的推移,我们将被置于更加被动和不利的局面。我认为,对这个问题我们要有清醒而现实的认识。所谓清醒是指,外部世界已经变化了,这是一个不依任何人意志为转移的客观存在。尽管这个变化和我们所熟悉与理解的有差异,甚至不同,但我们绝不能对此无动于衷,甚至采取“鸵鸟政策”,装看不见,用一句简单的“不符合中国国情”就搪塞过去。“中国国情”不是抗拒变革的借口。“祖宗成法”应当可以也能够变一变。当前,教育界和社会公众普遍形成了一种认识,即学生课业负担过重、教育生态单一、普通高中特色发展不明显、唯分数论的痼疾日益恶化,其根源都在于高考。只要这一最终的考试评价制度不发生实质性改变,所有的教育改革都会沦为空谈(范涌峰,吴钰茜,2025)。当然,只要考试招生制度的“指挥棒”一变,的确基础教育的面貌就有可能焕然一新。但高考改革并非如此简单。如果由于各种原因,这个“指挥棒”不会按照人们想象当中的那样做出改变,难道我们就只能坐以待毙了吗?我们不能把所有责任都推给考试招生制度改革,期待只要这一制度发生了根本性实质性改变,一切都将豁然开朗。如果这样的话,这一天可能永远也不会到来。
所谓现实是指,人们对于在高考中实行剧烈变革持谨慎甚至是反对态度,这当然可以理解。我们的确不能过于超越历史传统和社会公众的认知,在高考根本制度上动“大手术”,这将带来社会的反弹,并引发新的问题。因此,指望短时间内实现高考与外部世界的对接是不现实的。但是,难道我们甘愿就此动弹不得吗?为什么我们不能换一种更加务实的思路呢?我们是否有可能实施一种新技术的“渐进式使用”?也就是说,不要试图去做一步到位的“休克式大手术”,但至少可以在非高利害考试或日常的教育教学中学会使用那些“高级”技术,比如自适应测试、机器命题、人机交互,等等。通过运用这些技术而不是让学生反复“刷题”来提升人才培养质量。因为是在日常的教育教学中使用,可以预期不大会引致过大的反弹,并保持了相当大的灵活性。在日常使用过程中,不断发现它们的优势和好处,用看得见的结果逐步改变社会的认知,假以时日,我们也许就可以实现在高利害考试和招生中使用它们,并由此改变考试招生制度的最终目标。
(二)用形成性评价重塑人才培养
既然是在日常教育教学过程中使用,我们可以在更广泛的范围内使用形成性评价来重塑人才培养。形成性评价是三十多年来风靡欧美教育界的教育评价方法,是第三代、第四代教育评价理论的核心。由于其有效地通过评价促进了学习者学习的改善,已经内化到教育教学的各个环节之中,对于欧美国家教育的发展进步发挥了不可替代的作用。在OECD(国际经合组织)最新发布的《解锁高质量教学》研究报告中,将“使用形成性评价和反馈”列为高质量教学的五大关键目标之一(OECD,2025),强调通过设定学习目标、诊断学生学习情况、提供反馈和适应学生思维来评估和指导学生进步的重要性。
从国内基础教育现状来看,尽管各种公开课和赛课热热闹闹,但目前绝大多数教学一线的课堂仍然是以传统讲练模式为主,而且越往高年级越是如此。在强大的考试压力下,教师已经从知识的传授者逐渐沦为“讲题者”。在大多数学校,整个教学组织和学生学习模式仍然建立在早期行为主义学习理论的基础之上。教师确立在教学中实施行为主义的“刺激-反应-强化”模式(a stimulus-response-reinforcement model)的最有效的手段和程序,以保证达到规定或预期的学习结果。这种理论和模式固然有一定效果——因为它建立在生物实验的基础上——但随着时代的发展,越来越无法适应当代的社会和教育环境。因为它忽略了人的主体性,忽略了人超越动物的本质特征。今天基础教育领域出现的大量问题皆源于此。
我们应当放弃这种早已过时的行为主义的学习评价观,更快更坚决地转向建构主义的学习评价观。在建构主义看来,知识不是通过教师传授得到的,而是学习者在一定的情境即社会文化背景下,借助其他人(包括教师和同伴)的帮助,利用必要的学习资料,通过意义建构的方式而获得的。因此,建构主义提倡在教师指导下的、以学习者为中心的学习。形成性评价最好地实现了这一目标。通过构建一个教师和学生共同组成的学习共同体,形成性评价在学生发展过程中,将评价作为一种持续性的教学与学习手段,为教师和学生提供信息和反馈支持,从而改善了学习效果。它从根本上改变了教育评价的定义:是改善而不是筛选。
(三)实现目标与手段的统一
进一步发展教育评价理念,更深刻地理解“评价是为了人的发展”这一目标,把手段和目标统一起来。在当前的教育环境中,目标和手段的二元对立的情形尤其严重。我们对教育评价的理解还太过狭隘,仍然停留在价值判断和筛选的阶段。一提到评价,首先想到的就是考试和选拔。也许从理智上我们也知道评价应该为人的发展服务,但一到实际工作中,就异化为对分数的非理性追求。整个社会,从学校到家长,都陷入了一场疯狂争夺分数的“囚徒困境”。这时候,具有清醒的头脑和独立思考的认知就显得格外重要。事实上,我们没有必要给所有的人和事都确定一个等级。我们应当尽可能去除教育评价中的价值判断因素,把目光聚焦在事实本身,去诊断“是什么不是什么”,而不是简单地判断“好还是不好”。
认知改变不是一件容易的事情,它涉及到对原有认识的超越。在挣脱原有“圆”的边界过程中,努力实现新的更大的“圆”。 外部世界已经转得太快了,以致于很多事情都开始变得模糊。我们要停下脚步来想一想,我们正在做什么,我们为什么要做这些事,我们要向哪里出发。对于一个教育工作者而言,你所有的工作都是为了孩子的成长,你的成就和生命价值来自于孩子的健康成长。如果你的工作不能带来这些甚至带来相反的结果,你的工作也就失去了价值。换句话说,你的生命也就终止了。
(四)实现多元评价
通过持续深化的考试招生制度改革,为建设教育强国提供有力支撑。《纲要》对此做了详细而明确的部署。比如,“各级党委和政府要树立正确政绩观,树立科学的教育评价导向,防止和纠正‘分数至上’等偏差。有序推进中考改革。加快扩大优质高中招生指标到校,开展均衡派位招生试点。深化高考综合改革,构建引导学生德智体美劳全面发展的考试或考核内容体系,重点强化学生关键能力、学科素养和思维品质考查。深化研究生学术学位和专业学位的分类选拔,加强科研创新能力和实践能力考查。推进信息技术赋能考试评价改革。深化高校人才评价改革,破除人才‘帽子’制约,突出创新能力、质量、实效、贡献导向,科学认定标志性成果。完善义务教育优质均衡推进机制。引导规范民办教育发展”(新华社,2025)以及, “探索利用人工智能、大数据等现代信息技术赋能评价改革,提升综合素质评价的可信度、可用性”,“完善职教高考的形式和内容,加强采用现代信息技术赋能技能实操考试的研究”,“建立基于关键能力及核心素养的考核评价,加强长周期培养和跟踪评价”,等等。这些都是未来十年要努力的方向(怀进鹏,2023)。现在的关键问题是,如何扎实贯彻履行这些要求,在实践中将这些工作落实到位,更加释放出受教育者的潜能,为建设教育强国提供更强有力的支撑。
我认为,目前的当务之急是按照《深化新时代教育评价改革总体方案》的要求,采取各种措施努力实现多元评价。多元评价的理论基础是美国教育心理学家霍华德·加德纳(Howard Gardner)于1983年提出的“多元智能理论”(Gardner,1983)。尽管备受争议,但由于其在一定程度上暗合了人们的直觉(比如,“三百六十行,行行出状元”),对教育实践,特别是美国顶尖大学招生产生了深远影响。用一个简单的比喻来说,“多元智能理论”告诉我们,你不能同时要求鱼和猴子比赛爬树,也不能要求大象和鸟比谁飞得更高。事实上,“任何一个教育评价方式都不能包打天下,多元评价才能对学生的心理建构进行整体刻画……推动普通高中真正从‘唯分数’‘唯升学’的泥沼中解放出来,切实承担起培养学生综合素质的任务,从而促进高中‘育人为目标’的综合素质评价与高校‘招录为目标’的综合素质评价之间相互对话、相互启发、相互成就的良好局面的形成,全面实施素质教育”(杨九诠,2019)。从目前对拔尖创新人才的研究来看,真正的创新性人才都不是按照预先设计好的统一路线选拔培养出来的,如宇树科技的创始人王兴兴,《哪吒》的导演饺子等等,莫不如此。对人才评价不搞一刀切,给各类人才都有一扇可供其自由进出的门,从而营造出生动活泼的教育生态和育人局面,依然是今后一段时期教育强国建设的最艰巨的任务之一。
建设教育强国是一项艰巨的系统性工程,需要在党的领导下社会各方力量的整合与持续投入。教育评价改革是其中一环,而且是非常关键的一环。正如习近平总书记强调指出的,“教育评价事关教育发展方向,事关教育强国成败”,不可谓责任不重大。时不我待,我们要进一步深刻领会党的二十大报告和全国教育大会精神,按照《纲要》的规划和部署,充分发挥教育评价的“指挥棒”效应和枢纽作用,为加快教育强国建设,全面推进中国式现代化,实现中华民族伟大复兴做出更大贡献。
来源:永大英语