摘要:本文依据Bachman和Palmer的语言测试有用性框架,从信度、构念效度、真实性、交互性、影响和可行性六个维度分析了所抽样地区中考英语试卷存在的问题,提出发挥题型功能、强化依标命题、设计真实情境、规划试卷任务、合理利用资源等建议。
感谢您关注“永大英语”!
马 黎
摘要:本文依据Bachman和Palmer的语言测试有用性框架,从信度、构念效度、真实性、交互性、影响和可行性六个维度分析了所抽样地区中考英语试卷存在的问题,提出发挥题型功能、强化依标命题、设计真实情境、规划试卷任务、合理利用资源等建议。
关键词:语言测试;英语;学业水平考试
义务教育英语学业水平考试(以下简称“中考”)“旨在检测和衡量学生在义务教育阶段结束时的学业成就,为判断学生是否达到国家规定的毕业要求提供主要依据,为高一级学校招生录取提供重要依据,为评价区域和学校教学质量提供参考,为改进教育质量和教学方式提供指导”(教育部,2022)。尽管中考属于教育测量的范畴,但却是一项高风险、高利害的社会化教育考试,它不仅对基础教育阶段的英语教育教学有强大的反拨和导向作用,而且对整个社会的价值观念也会产生强烈影响。
《义务教育英语课程标准(2022年版)》(以下简称《义教新课标》)在课程理念中提出“发挥核心素养的统领作用”,明确了学业质量标准的内涵和不同级别学业质量的描述;在课程实施的评价建议中对学业水平考试的性质和目的、命题原则和命题规划都提出了相应的建议(教育部,2022)。如何在中考中体现《义教新课标》的理念,既是一个关系到《义教新课标》理念下英语中考命题的实践问题,也是一个关系区域整体英语教育教学的现实问题。
一、义务教育英语学业水平考试试卷的基本信息
为进一步了解各地目前中考英语的测试现状,笔者选取和研究了J省12个地区的中考英语试卷。该省的中考英语由听说人机对话考试和笔试试卷两部分构成。听说考试由听力(20分)和口语(10分)两部分组成,满分30分,由全省统一命题,考生在计算机上完成听说考试并由计算机评分。笔试试卷由各市自主命题。英语学科中考总分(含听说人机对话考试)从120分到150分不等。
1试卷的题型结构
12个地区的中考英语笔试试卷均由第Ⅰ卷选择题和第Ⅱ卷非选择题构成。其中第Ⅰ卷选择题分值占比从44.4%到65%不等,非选择题分值占比从 35%到55.6%。12份试卷中选择题分值占比超过或等于非选择题的有9份。需要说明的是,各地笔试试卷第Ⅰ卷选择题属于“答案是固定的,可以采用机器简单地进行评阅”(林敦来,2019)的客观测试,在本文中笔者将它们称为选择性客观题。这是因为第Ⅱ卷非选择题并非所有的题目都是“要求评分员基于他们对评分标准的主观理解对考生的表现做出主观判断”(林敦来,2019)的主观测试。部分非选择题属于答案固定的客观测试,笔者称这类题目为非选择性客观题。这类试题在试卷中多以动词等词汇填空、短文选词填空等形式出现。12份试卷的题型分别有7~8种,其中6份试卷有读写结合的阅读表达类综合性试题,4份试卷有句子翻译题,其余试卷基本是选择题、填空题和写作题三种题型并用,但题型结构的比例有所不同。
2试卷的内容结构
12份试卷的内容结构各不相同。听说人机对话考试在各地区中考英语总分中的占比从16.7%~25%不等。笔试试卷考查的内容主要是语言基础知识和语言技能。其中语言基础知识占比16.7%~30%(含单项填空、词汇填空和句子翻译等)。语言技能中理解性技能的听力理解占比为11.1%~16.7%,阅读理解占比为31.5%~46.7%(含完形填空、阅读选择、任务型阅读和首字母填空)。表达性技能中说的占比为6.7%~7.2%,书面表达占比为 12.5%~19.2%,体现读写的综合技能占比为5.4%~10.7%。
二、义务教育英语学业水平考试中存在的问题
“一项测试多大程度上能够达成目的就代表了其有用性程度,就此而言,测试最重要的特性就是有用性”(罗少茜等,2021)。测试的有用性不仅是评价测试的标准,也是指导语言测试开发和使用的重要标准。Bachman和Palmer(1996)的测试有用性框架包括六个维度,即信度(reliability)、构念效度(construct validity)、真实性(authenticity)、交互性(interactiveness )、影响(impact)和可行性(practicality)(转引自罗少茜等,2021)。本文以该框架为基础,结合所抽样的试卷,从六个维度分析目前中考中存在的问题。
1为信度的稳定牺牲了其他质量属性
“信度是指测试结果的稳定性和一致性,即测试结果不因考试形式、阅卷教师、时间等因素的变化而变化”(韩宝成、梁海英,2021)。在影响考试信度的因素中,“直接属于考试设计方面的因素有指令、内容、任务和评分标准等方面的问题”(徐强,2000)。
在所分析试卷使用的任务形式中,选择性客观题的分值占比从44.4%到65%不等,还有一些涉及语言基础知识的非选择性客观题。选择性和非选择性客观题的使用可以避免评分员在阅卷时可能因为对评分细则理解的偏颇而造成的误差,保证考试的信度。但在真实生活情境中,学生不会以某种固定的方式去解决问题,这样的试题也就无法考查出学生真正的语言运用能力。为保证中考的信度而过多使用这类试题,不仅牺牲了效度、真实性、互动性等质量属性,也直接导致学生为应对中考而进行大量的选择和非选择性客观题的专项训练。这不仅误导学生形成英语学习就是为了考试并大量刷题的错误观念,也导致学生的学业负担过重,使其失去学习英语的兴趣。
2构念效度不高
“构念效度指的是被试在某一测试的表现与理论框架及概念之间的一致性程度”(罗少茜等,2021)。中考要“能够考查学生综合运用英语理解和表达意义、解决问题的过程和结果,以及在此过程中所体现的语言能力、文化意识、思维品质和学习能力及其水平,确保测评能准确考查学生的价值观、必备品格和关键能力”(教育部,2022)。当我们考虑分数解释的构念效度时就必须考虑中考的考查目标,素养立意的理念需要中考能考查出学生综合运用英语解决真实生活问题的能力。在抽样地区的口语考试中,通过朗读短文、话题简述和情景问答的方式进行人机对话考查。由于朗读短文和话题简述是学生事先准备的,因此这样的口语试题和构念预设并无太大关联也无法有效地检测出学生的口语能力。笔试试卷中的开放性试题仅有书面表达和极个别的阅读表达,分值占比很低,对学生的综合语言运用能力考查不足。根据考试结果不能准确推断出学生在非测试环境下的实际英语交际能力,这表明考试的构念效度不高。
3测试任务缺乏真实性
真实性是语言测试的关键质量指标。“真实性是指语言测试任务特征在多大程度上与目标语言使用任务特征相吻合,即测试任务和材料与实际语言使用任务的一致性”(韩宝成、梁海英,2021)。真实性要求测试任务与现实生活中的交际场景有较高的相似度。如果测试任务没有真实性,就不能通过考试结果来解释学生的语言素养。虽然考查学生的综合语言运用能力已经是中考命题的共识,但实际考试中更多的是真实生活中不存在的四选一的选择性试题、且绝大多数题型都属于只检测一个语言知识和一种语言技能的分离式测试任务。这些测试任务与考生在真实生活中的语言运用情境相差较远,不具备真实性的特点。
4测试任务与考生的交互性不够
“互动性主要涉及测试任务与考生之间的关系,测试任务的设计应在最大程度上调动学生拥有的各类知识、不同层次的认知策略和技能等以完成任务”(韩宝成、梁海英,2021)。从交互性的定义可以看出,交互性主要涉及试题与考生之间的关系,即测试设计应在最大程度上调动学生已有的语言知识、策略和技能等去完成任务。在测试中,“考生的答题过程也应是考生与考试任务之间的相互影响和相互作用后产出自己语言的过程”(马黎,2022)。从抽样的试卷看,绝大多数考查学生单一技能的选择性客观题和非选择性客观题都不具备交互性即使有一些综合性任务的试题,也只是让学生简单回答问题,这样的浅层互动属于无效交际的互动。
5测试产生负面影响
影响是指“考试宏观上对社会、教育制度产生的影响,微观上对个人,包括考生和教师的影响,或者说它对教学产生的反拨效应”(韩宝成、梁海英,2021)。中考作为高利害社会性考试,会影响学生如何准备考试以及教师如何进行教学。中考试卷的构念效度不高、测试任务真实性和互动性低会给英语教学带来负面影响。在这样的情况下,教师日常教学中可能很少关注教学任务的真实性和互动性,而让学生进行大量的选择性客观题的训练。这种机械的应试训练无法使学生形成学科素养,并运用学科素养去解决生活实际中遇到的真实问题。
6现行机制的制约
“可行性是指在测试设计、开发和使用过程中所需的资源和可用资源的关系”(韩宝成、梁海英,2021)。可行性涉及的是测试实施层面的问题。“可行性因素包括命题时间、施测时间、资源可得性、测试经济性、评分及反馈的便捷性等”(Brown & Abeywickrama,2010; Mousavi,2009,转引自罗少茜等,2021)。中考是由各地区教育行政部门主管的考试,教育行政部门不仅从政策和后勤做出相应的规定和保障,还从考务管理和考试结果的稳定性考虑,对考试的具体技术,如考试分值、时间、题型、难度等作了规定。教育行政部门期待的高利害考试的相对稳定性以及全民对教育考试的过分关注不可避免地制约了考试的科学化发展。
三、对义务教育英语学业水平考试的思考
“在测试实践中,各个维度之间或许会存在某种程度的冲突,但这并不意味着为了追求某个指标而放弃或牺牲其他。测试开发者应根据测试的情境和目的,最大程度地寻求各维度之间的平衡”(Bachman & Palmer,1996,转引自罗少茜等,2021)。根据对所抽样的中考试卷的分析结果和中考的特点,为了进一步体现《义教新课标》的理念,笔者认为需要注意以下几点:
1发挥题型功能,提升整卷信度
各地区“要依据学业质量标准整体规划试题结构,基于核心素养的发展目标,以及主题语篇、语言知识、文化知识、语言技能、学习策略等课程的内容要素,确定试卷的任务类型(如独立型任务、综合型任务等)或题型(如选择题、填空题、判断题、匹配题、简答题、写作题等)及其比重,确定听、说、读、看、写等语言理解、表达的形式和比例;积极采用综合应用知识和技能、体现能力与情感态度水平的试题”(教育部,2022)。这就需要中考在强化核心素养发展目标和体现课程内容各要素的前提下,从考查学生真实语言运用能力的角度出发,合理利用不同题型的考查功能设计试题。适当减少选择性客观题和非选择性客观题的比例,增加综合型任务。对现有试卷的语言理解和表达的形式和比例进行调整,适当减少单句层面的选择题和填空题的比例,增加如读写、听写等语篇层面的综合型任务试题。考虑到主观题评分对信度的影响,主观性试题的评分标准应涵盖所有可能的答案,并有明确的赋分标准。应通过培训提高阅卷教师对评分标准的认识,缩小评分员间的误差,以及减少和避免同一评分员前后评分不一致的现象,在保证测试信度的同时最大限度地寻求各维度之间的平衡。
2强化依标命题,确保构念效度
在设计和实施测试前,我们就应该且有必要考虑要测量哪些能力(Weir,2005,转引自罗少茜等,2021),这样才能保证测试结果能够反映预计的测试目的(罗少茜等,2021)。在命制中考试卷前,命题人员需要认真学习《义教新课标》和教育部有关中考的相关文件,领会文件的精神,根据学业质量标准的描述,确定构念范围,形成详细的测试构念描述;可以通过试卷的多维细目表明确试题所要测量的范围(能力及素养)和思维层级,保证所测内容能够充分代表初中阶段预期的学习结果。表1为某地中考英语多维细目表。
从表1可以看出,该地的多维细目表从考查内容、能力要求、素养要求、学业质量标准、题目类型、预估难度和来源等多方面对试卷进行了细致规划,通过整卷测试目标的精准性来保证构念效度。同时“构念效度会决定测试工具的形式和内容”(林敦来,2019)。《义教新课标》明确指出“义务教育英语学业水平考试是以学业质量标准、课程内容为依据”(教育部,2022)。学业质量标准科学地将英语学科四个方面的核心素养转化为学生基于课程内容主题的典型的行为表现,反映了学生在真实情境中运用英语发现问题、解决问题的方式与能力。
[例1] Which of the following is “making a budget”?
A. Kate runs out of all her pocket money in a day.
B. Nancy returns her pocket money to her parents.
C. Simon keeps a record of the pocket money he spends.
D. Daniel makes a plan for spending his pocket money wisely.
[分析] 这是一道阅读理解试题。语篇内容是讲述如何做预算。在考查了学生对语篇细节信息的提取、概括能力后,命题者设计了需要学生理解语篇的情境应用题,这也符合《义教新课标》三级学业质量标准中的3-7“在阅读稍长的语篇材料时,能理解主要内容,推断隐含信息,表达个人看法,提出合理疑问,分析和解决问题”(教育部,2022)。这样考查不同思维层次的阅读理解试题,能检测出不同水平学生的阅读理解能力,体现了很好的构念效度。
3依据所选语料,设计真实情境
12份试卷所命制的试题大部分都设置了情境,但抽象、碎片化的情境比重较大,有的试题不需要考生读懂情境就可以答题。真实性可以体现在测试任务的不同维度。“Brown和Abeywickrama(2010)将测试任务的真实性体现总结为以下几个方面:(1)语言使用尽可能自然;(2)测试项目应该是在某种情境中的,而非孤立的;(3)话题要有意义、与学生生活相关和有趣;(4)应根据主题组织测试项目,例如根据一个故事情节:(5)测试任务本身应该与真实任务相似(如任务的目的和要求)”(转引自罗少茜等,2021)。命题者可以依据这样的原则,创设与学生生活密切相关的真实任务,并使考查任务和情境之间产生联系,通过让学生完成任务来测量学生的学习结果。
[ 例2 ] Would you like to learn about a new type of travel? Read the passage and take notes so you can share them with your classmates later.
What is your perfect vacation? Popular trips include relaxing on a warm beach. Or they involve sightseeing in a beautiful city. Increasingly, though, many of us don't want to just visit a place. We want to experience it.(限于篇幅,阅读语篇其余内容略。)
[分析] 这是一道常规的阅读填空题。命题者改变了阅读填表格的任务,通过导语设计了学生阅读有关语篇后,对语篇主要内容做记录并与同学分享的情境,让学生带着任务阅读。在题目设计上,除了让学生完成填空考查其对语篇意义的理解外,还通过Your idea这部分读写结合的开放性试题,让学生设计一个所在城市的体验式旅行活动来检测其理解语篇后对语篇信息的迁移运用能力,真正体现了对学生核心素养的考查——用所学英语解决生活中的真实问题。这样的设计将需要考查的素养和真实情境有机融合,让学生在真实的情境任务中完成测试。
4借鉴项目化学习,规划试卷任务
中考试卷是由不同的大题和小题组成的,在大多数试卷中,这些题目之间是没有关联性的。“项目化学习是为了促进素养目标而围绕一个真实问题进行深人持续的探索,形成项目成果”(夏雪梅,2022)。试卷可以借鉴项目化学习的组织方式,设计与学生生活实际密切相关的真实问题情境,将学生的答题过程变成解决问题的过程。这样的真实情境由两部分组成:一是导语,二是通过导语联系的任务。导语为学生创设一个需要完成任务的前置情境,帮助学生对测试任务形成初步认知。例如,在一份试卷中设计了情境“The summer holiday is coming near. Make your holiday plan and have fun!”,并早现了学生需要完成的任务“Problem Solving Ⅰ: Give advice on your classmates' summer holiday."。通过阅读导语,学生明确了任务,但此时并没有融人试题的任务情境中,这就需要将“给同学的暑假提建议”这个大的任务分解成小任务。在上述导语情境中,试题可以通过小任务的设计和导语的串联,指向大任务的完成。
例如,通过“If you like traveling and are interested in modern cities, read the poster and enjoy your tour in Shanghai.” 这样的导语引出上海的旅行; 通过“If you like traditional Chinese culture, don't miss Dunhuang.”引出中国的文化瑰宝敦煌和敦煌的守护人樊锦诗;通过导语“If you want to spend your holiday at home, you can read some books.” 引导学生进行假期阅读;最后通过“Now it's your turn to write down your advice.”的导语引导学生完成给同学的暑假提建议的任务。这样的导语串联,将试卷中一个个不同的题型变成需要学生完成的任务。命题者结合语言材料编撰导语,构建情境场域,基于大任务规划各项子任务,思考每个子任务之间的逻辑关系,通过一定的逻辑引导学生深度参与。这样的设计可以充分调动学生综合运用语言知识、语言技能和学习策略解决问题,这也是素养导向测试的命题趋势。
5优化考试形式,强化正面反拨
“考试形式是指考试向考生呈现考试材料和试题任务的形式。与考试难度和考试内容相比,考试形式更直观、更可见,更容易引起学生和教师的关注”(程晓堂,2022)。中考已成为初中英语教学的指挥棒,中考考什么题型,从初一年级开始的各种考试就考什么题型,这就造成教师在日常教学中将中考题型作为教学内容而传统的测试构念以及真实性、互动性偏低的试题势必给目前的初中英语教学带来一些负面影响。例如,在培养学生的阅读能力时,由于中考中选择题占大多数,教师只给学生做阅读后选择的训练。“优化英语考试形式需要注重考试形式的多样性,为考生提供展示语言能力的多种机会,为体现考生的语言能力提供多种证据”(程晓堂等,2023)。在试卷中需要适当增加听、说、读、看、写的综合性试题以及考查题型的多样性,通过优化考试形式,改变教师日常教学聚焦语言知识和客观性试题训练的现象。
6明确职责分工,合理利用资源
“考试命题既要反映国家教育政策及教育评价的要求,又要严格遵守课程标准的规定,还要满足教育测量技术的要求”(程晓堂,2022)。中考英语命题的依据是课程标准,命题需要兼顾初中英语教学实际和学生的水平,要有利于中学英语教学质量的提升,也要符合教育测量的要求。与考务管理比,依据《义教新课标》理念的测试工具开发和使用的可行性更需要学科专业人员的介人和教育行政部门的支持。教育行政部门除了从政策层面确定中考的目标和提供人力、物力保障外,还需要为专业人员的测试调研以及合理的中考试卷结构变化等提供有力的支持。只有这样,教育行政部门依据中考结果进行的教育决策才能更加科学、有效。
中考应反映《义教新课标》的要求,保持课程目标、课程内容与考试评价之间的一致性然而,中考的高风险和高利害属性可能使各地难以在短时间内达到《义教新课标》对中考的要求,还需要中考命题者进一步学习《义教新课标》的理念和教育测量理论,不断探索,构建以发展学生素养为导向的中考评价体系。
来源:永大英语