基于大语言模型的试题自动生成路径研究

B站影视 2025-01-01 00:00 2

摘要:大语言模型具有强大的自然语言理解与生成能力,将大语言模型应用于试题自动生成领域,能够极大地提高我国教育考试发展的数字化水平。在具体教育场景中,尚需克服大模型普遍缺少专业知识、知识水平难以达到专业课程的教学精度、难度等挑战。为提高大模型自动生成试题的质量,本研究

感谢您关注“永大英语”!

陈 欣 李蜜如 周悦琦

摘要:大语言模型具有强大的自然语言理解与生成能力,将大语言模型应用于试题自动生成领域,能够极大地提高我国教育考试发展的数字化水平。在具体教育场景中,尚需克服大模型普遍缺少专业知识、知识水平难以达到专业课程的教学精度、难度等挑战。为提高大模型自动生成试题的质量,本研究构建一种基于大语言模型的试题自动生成路径,并对其进行验证研究。首先是基于检索增强进行知识集成,其次是将课程知识以知识点的形式融入提示模板,最后是结合提示工程的效用,使大模型在理解课程知识的基础上执行大量试题生成任务。验证结果发现,自动生成试题的合格率为86.47%,随机抽取试题组成的测验难度为0.67,试题接受度良好。

关键词:大语言模型;生成式人工智能;试题自动生成;试题质量;提示工程

近年来,智慧教育快速发展,智慧考试应运而生。智慧考试以海量题库、个性试卷、科学评价为核心特征,其根本需要是大量的高质量试题[1]。在教学实践中,试题一直被看作是巩固知识和锻炼批判性思维的有效工具[2]。因此,试题的数字化发展对我国教育数字化整体进程影响深远。通过试题的数字化改造与创新,不仅能够提升优质教育资源的获取效率与覆盖范围,还能促进教育内容的个性化与智能化发展,为学习者提供更加精准、高效的学习路径。

进入互联网时代,考试不再局限于传统的纸质媒介,而是以数字化、网络化形式呈现和传播,具有即时性、互动性和个性化等显著特点。通过互联网平台,试题的获取与分享也变得极为便捷,学习者可以随时随地接触到丰富多样的试题资源,这也意味着试题流转加快,试题更新速度也需要加快。并且,电子化的学习资料往往融入了多媒体元素,如图片、视频、音频等,使得学习与考试过程更加生动有趣,学习与考查范围也在这一过程中变化和扩展。然而,传统的人工命题需要耗费时间与精力,且经验不足的教师难以胜任[3],这些因素使得人工命题的方式有时难以适应智慧教育的需要与互联网时代试题的更新速度。

以ChatGPT为代表的大语言模型(large lan­guage models,LLM,以下简称“大模型”)横空出世,引起教育界的广泛关注。LLM在多项自然语言处理任务中表现出优异性能,为试题自动生成提供了一种富有前景的解决方式。基于LLM自动生成试题,不仅可以减轻考试机构及专家个人的命题负担,使得试题库得以不断更新和扩充,教育工作者也可以将更多时间用于备课、教学以及关注学生成长,从而使教育资源得到更均衡分配,对于推进我国教育考试的数字化、现代化具有重要意义。然而,LLM生成试题通常需要进一步优化改进,才能真正用于教育实践。本研究借助检索增强生成(retrieval-augmented generation,RAG)与提示工程(prompt engineering)技术,探索基于大模型的试题自动生成路径,使LLM能够根据教师的教学进度自动整合经典题库与网络上快速更新的学习资料,生成既具有时效性又富含教育价值的试题,还可以根据学生个性化的学习需求生成更具有针对性的试题。通过将理念创新与技术实践相融合,本研究旨在探寻一种符合时代需求的基于LLM的教育考试应用方式,也为提升自动生成试题的质量寻求解决方案。

一、研究背景

国际上,由于人工命制试题的成本高、组织难度大,人们较早地将机器学习和自然语言处理的相关技术应用于自动问题生成(automatic question generation,AQG)。Kurdi等总结AQG的生成方法主要包括基于模板的方法、基于规则的方法和基于统计的方法三种,但这些方法的实现因受建模限制而难以推广,且无法适应复杂度较高的任务(如构建阅读题)[4]。近年来,随着大语言模型的出现,学者们将其用于自动问题生成,尤其是GPT序列得到广泛研究[5]。Dijkstra等提出一个基于ChatGPT-3模型的端到端测验生成器(EduQuiz),成功生成了包括正确答案和干扰答案的阅读理解多项选择题,其生成的大部分试题都是合理的,试题的干扰项也具有较高质量[6]。Attali等使用ChatGPT-3模型生成交互式阅读理解题并对考生答案进行自动评分,专家评估和大规模试点结果均显示,这是一种可行的命题方式[7]。

大模型受其庞大参数和训练数据的影响,一方面是一个黑盒模型,缺乏可解释性;另一方面无法获得最新的外部信息,并且在缺乏事实知识时还可能存在幻觉现象,对其应用于需要精准把握和深入理解专业知识的教育领域构成了挑战[8]。因此,RGA作为一种在无需更改模型参数的情况下就能集成知识和大模型的途径而受到重视,并通过搜索和利用外部数据增强大模型的可解释性和准确性[9]。MetaAI的研究人员最早将预训练的检索器(查询编码器+文档索引)与预训练的生成器(seq2seq模型)相结合,实现可以访问参数和非参数内存的混合生成模型,在知识密集型任务上实现了更真实、更具体的作答[10]。Fung等构建了一个包括数据处理器和查询处理器在内的框架,利用RAG和基于云的LLM为接受数据科学教育的学生提供自动化和个性化的反馈[11]。Li等以代理(agents)的形式整合外部数据库中的知识,并在LangChain框架内获取与特定知识点高度相关的测验示例和解题思路[12]。有研究指出,在通用人工智能教师的架构中,检索增强生成过程的外部数据资源可以是教育专家构建的知识库、学科知识图谱、优质教学场景数据等[13]。

此外,提示工程也是提升LLM教育领域应用潜力的关键技术。研究表明,通过创建合适的提示能够在很大程度上提高LLM输出的准确性与相关性[14]。在中文教育场景下,已有研究建构了一个由语境、目标等必备要素和角色、示例等可选要素构成的教育提示设计框架,并总结提炼了角色提示、规则提示、组合提示等五类提示,旨在提供结构化提示模板设计范例[15];还有研究在构造教育问答系统时引入人工设计思维链和自动生成思维链等策略,较好地克服了LLM的通用性、泛化性问题[16];另有研究应用思维链等提示工程的理论和技术,引导ChatGPT生成一批符合中文特点和国际中文教学实践的例句,用于填充教学语料库[17]。此外,国产大模型也多装载了教育场景下的提示模板以提高用户体验,如百度的文心一言[18],见表1。

在LLM带来变革的今天,提示工程成为通往AQG的一把神奇钥匙,有研究将给定的知识图谱子图作为提示输入,指示LLM进行相关文本知识检索以描述子图,然后利用由结构化转为非结构化的文本知识进行更有效的问题生成[19]。Maity等引入一种由思维链(chain-of-thought)改进而来的多阶段提示,以改善多语言多选题生成质量[20]。Wang等关注到教师应当参与自动化出题过程(而不仅仅是技术人员),通过构建一种基于教师集体知识的提示模板(prompt pattern),有助于教师发挥他们的专业知识和经验,从而使LLM生成既能准确涵盖主题又能与既定教学实践相一致的阅读理解题[21]。然而,提示的效用会受到输入语言与训练语言的影响[22],因此对英文提示的迁移效果还有待进一步研究,或者直接开发中文提示,而提示工程与RGA的结合将进一步释放LLM的强大效能,不断提升试题的准确性与针对性。

二、基于大模型的试题自动生成路径

本研究提出的基于大模型的试题自动生成路径GQR,主要应用于中文教育场景的试题自动生成。首先,从学科知识出发,一方面可以填充进向量数据库实现检索增强,另一方面可以由教学专家构建更加结构化的知识点库,使用时直接提取单个知识作为提示模板的一部分。同时,提示模板中还包含通过试验提高试题质量的方法,以及以同一个知识点作为输入经由检索器检索出的向量数据库中的内容。最后,将填充好的提示模板输入文心一言等大模型中,实现试题集的输出。试题自动生成路径GQR主要分为针对大模型的知识增强、结构化知识点的形成与使用、任务提示模板设计三部分,见图1。

(一)针对大模型开展知识增强

教育场景中用于命题的知识是特定的,这一特征在各个教育阶段都存在。以高等教育阶段为例,学生在课堂上学习的学科知识范围有限,且该领域的专家、编撰者及教师会进行较大程度的教育加工,因此课堂知识往往具有很强的逻辑性和关联性,并且在用语和使用范式上力求简洁、清晰、准确。基于知识的大模型要想顺利完成命题任务,亟须一个可以集成必要知识的高效方法,RAG是一条操作更简单、效果更好的路径。首先是储存与检索文档,即将学科知识传入向量数据库,检索器中预置的语言模型将文本转化为用数值表示的向量形式,然后使用最大内积搜索技术(maximum inner product search, MIPS)实现文档排序和语义匹配,结果返回与用户提问最相关的文档段落(top-k文档);其次是正确使用检索到的文档,由于大模型完成单个命题任务是一次性的,且命题前就应该掌握全部信息,因此文档作为一种输入增强使用,即将检索到的文档段落作为提示的一部分填入预先构建好的提示模板中。

采用检索增强前后,大模型对同一问题的回答具有明显的差异性。以《信息检索》课程内容为例,前后比较分析见表2。知识增强前,大模型的回答存在不符合学科背景、不完全遵循课程内容以及回答错误的情况,而知识增强后,大模型的回答与标准答案十分接近。

(二)形成和使用结构化的知识点

有研究指出,相较于传统的以教材为主的单元化模式,按知识点划分可以使知识间的逻辑和层次更加清晰和系统化[23],从而有利于形成更加明确、简洁的提示,也有助于实现更加符合教育目标的大模型输出。首先,在专家和教师经验的指导下,将一门课中需要学生掌握的内容按知识点的形式进行组织,形成知识点条目的结构化数据。其次,通过调用大模型应用接口(application programming interface,API),既可以遍历(tra­versal)存储文件让知识点条目逐一自动填补进提示模板中,也可以在交互界面填入提示模板,指令大模型进行试题的批量化生成。对这些知识点条目而言,一方面可以作为用户提问时输入的语句使用,调用向量数据库内的相关知识;另一方面可以作为后续生成试题时提示的一部分,使调用的知识与大模型自动生成的试题相匹配。最后,必须保障自动生成试题具有保密性,一是通过调用大模型API时用户输入密钥才能启动的条件进行控制,二是在数据传输和存储阶段都进行高等级的数据加密处理。

(三)设计试题自动生成的提示模板

提示是指用户与大模型交互输入的具体内容,大模型拥有强大的泛化能力,因此针对某一任务的提示可以被归纳为一个模板,以使其能在更广泛的范围内被使用[24]。提示模式的设计主要由指令、上下文、输入、输出指标、示例等关键部分组成[25]。目前在提示工程领域已有许多通用法则和实践经验[26]。本文基于已有研究,探讨五种常见的提示方法对大模型在中文场景下执行生成问题任务的影响,见表3。

如表3所示,提供正确清晰的指令与角色提示在中文教育场景下表现出良好的效用,而其他提示方法的效用不明显或起反作用。因此,为了更精准高效地生成问题,在参考已有教育提示模板的基础上,经过多轮试验,最终设计指令为:你是一位教授[科目]这门课的老师,现在想要考查学生对所学的[top-k文档在代码中的参数]中知识的掌握程度,根据该目的,你要执行下列任务:1)分析关于[知识点]的内容;2)编制一道[题型];3)给出正确答案和解释。

三、试题自动生成路径的验证研究

为验证试题自动生成路径的有效性,对该路径进行实际应用研究。首先,利用RAG技术对LLM进行知识增强;其次,拆分课程内容为具体知识点;再次,通过调用API的方式,结合提示模板指令LLM进行多项选择题及应用题两种题型的自动生成;最后,对生成试题进行质量评估。

(一) 进行知识增强

首先,将知识填入向量数据库。本研究采用文心千帆企业级大模型服务平台(以下简称“千帆大平台”)推出的知识库插件,该插件可以实现本地或BOS等多种数据源文档的上传、分段和清洗,并最终储存于向量数据库中。其次,通过调用API的方式使用文心Embedding_V1模型作为检索器,实现针对LLM的知识增强。例如,将知识库调试后的参数设定为"temperature":0.95,"top_p":0,"penalty_score":1。用于填充向量数据库的数据来自《信息检索》和《数据结构》两门课程,其网络学习资料包括电子教材、PPT、在线视频等。转化为可支持的文本文档格式后,《信息检索》的字符数为314.62K,《数据结构》为191.48K,都可以导入上述知识库插件内。

(二) 拆分知识点

预实验结果显示,当提示中包含“引文语言”这样细微而具体的知识点名称时,比笼统地要求大模型围绕“检索语言”进行命题的效果有所提高。例如,《信息检索》的教学内容非常丰富,有信息检索概述、信息检索原理、语言和技巧、关键词途径语言检索、CNKI助力科研、专利数据库检索与利用、科技论文格式与规范等。这些内容首先由教师和专业人士进行细分,然后以包含知识点和考查目标的双向细目表的形式呈现。

(三) 使用提示模板生成试题

通过Python代码直接调用多个拥有中文能力的LLM原生接口。调用API时参数保持默认值,即"temperature":0.8,"top_p":0.8,"pen­alty_score":1。对其生成能力进行初步评估,不同LLM生成试题情况见表4。

通过对比分析发现,使用更多中文语料训练的前三种模型生成中文试题的效果更好,其中ERNIE-Bot4.0遵循指令的能力最为突出,对中文语境下的命题意图、知识点考查等理解超过其他大模型,因此选用该模型进行后续实验。对知识库API与ERNIE-Bot4.0的API分别进行代码调用,知识库进行查询时的语句为query,输出的内容设定为{wenben},输入大模型的提示prompt中包含了{wenben},输出结果为result。在这个过程中,首先通过代码遍历存储知识点的文件,将其以字符串形式依次输入query,然后引起后续{wenben}、prompt的相应变化,最后在前一个result后面继续打印新的result,由此进行该课程试题的批量化生成,具体流程见图2。

(四)评估试题质量

目前尚缺乏对大模型生成试题的评价体系,为验证生成路径的有效性和试题质量,本研究采用以下评估方法。首先,对试题质量提出五项合格标准并计算合格率,在考查试题质量的同时间接反映大模型自动生成试题的效率。其次,通过难度指标进一步考查试题质量,整体难度计算公式为:P=X/W,其中P为难度,X为样本平均分,W为试卷总分。最后,在测验结束后对学生进行有关做题感受和改进意见的问卷调查。

为了对自动生成的试题进行初步质量评估与筛选,在研究实验试题具体情况和参考已有案例的基础上提出以下五条标准:①准确性:题干和选项不存在语义、语法方面的错误,不存在表述混乱或含糊的地方。②模板黏性:题干和选项符合人们普遍认知中的规范,比如单选题具有四个备选项,其中只有一个正确选项。③完善性:试题应包括试题与参考答案两部分,若只有试题没有参考答案,或者需要有解析的试题没有解析,需要人工填补,否则视为不够完善。④试题质量:试题符合使用目的和人们期望,比如作为高等教育阶段的课程试题应具备一定难度,同时考查所学课程涵盖的知识点,答案过于明显或知识点不符合,则可视为质量不达标。⑤道德性:由于试题本身具有一定的权威性和引导性,因此试题除了不挑战任何既有法律与法规外,还应尊重作答者的认知和道德水平,不作任何价值观上的误导。

四、研究结果与局限

从自动生成试题评估、试题难度评估和作答体验三个方面分别报告上述验证分析结果。

(一) 初步评估结果

在充分获悉上述五条标准的基础上,三名信息检索领域的专家与三名计算机科学与技术领域的专家对大模型自动生成的试题进行评分分类。其中,一道试题只有被至少两名相应领域的专家判定为符合全部标准时,该题才会被判定为合格。具体评估结果见表5。

对生成的全部试题按上述方法请专家进行评分,统计分析后发现,生成的547道试题中有473题符合全部标准,总合格率为86.47%。此外,对一些不符合标准的试题进行再次分析发现,这些试题其实并非全然错误或不能使用,人工审查后如果进行简单修改,同样可以达到标准。

(二) 难度评估结果

为考查大模型自动生成试题的难度,从上述符合标准的试题中随机选取10道选择题和3道应用题,汇编成一份测试试卷,选择题每道分值为2分,应用题每道分值为10分,满分50分。随机抽取10名上学期选修《信息检索》与《数据结构》课的全日制在读硕士生作为被试,并告知他们这是一次考查信息素养的测试,要求他们独立完成并尽可能准确作答。测验结束后进行难度值计算,结果P值为0.67,说明测试的整体难度处于中等水平。

(三) 试题作答体验调查结果

为了获得学生做题时的真实体验,研究围绕试题的真实度和难度设计不记名调查问卷,包括选择题和开放性问答题。10名学生在完成上述试题后,分别完成作答体验的匿名问卷。结果显示,在真实度方面,所有测验学生均认为试题符合课程考核要求,且内容清晰、实用性较强、构建的问题情境贴近现实生活,与真实考题几乎没有差别;在难度方面,大多数学生认为难度适中,少数学生认为难度较低。调查中也收集到一些建设性的反馈,如认为试题难度可以进一步提高,以适应更高学习水平的学生需要。

(四) 研究局限

LLM自动生成试题还存在以下几个方面的局限:一是大模型生成单个试题的难度难以控制;二是大模型遵循固定模板的能力还有待提升,实验过程发现,当需要大模型生成具有五个备选项的选择题时,其给出满意答复的概率会降低,可能出现试题质量受损、输出不遵循给定格式等问题;三是需要编写相应的函数或方法作为参考答案时,API调用方式暂时无法给出有正确缩进的代码;四是API调用方式在生成图画方面的能力还较为欠缺,因此其规模化的自动命题多被局限在文字类题型中。

五、结束语

本研究提出并验证了基于大模型自动生成试题的完整路径,可以为生成式人工智能在教育领域的应用提供思路。其中,通过检索增强进行大模型课程知识增强,对于教师和学生来说,是一种较为简单的方法,无需改变LLM的参数设置就能实现符合课程内容的输出,在教育应用中容易推广,并且能够使生成的试题与学习资料密切关联,当学习资料变化时试题的内容也随之变化。在将课程知识进行结构化处理的过程中,可以融入教师已有的丰富经验,课程知识以知识点的形式纳入生成试题场景下的提示模板,对于提升试题质量有所助益。

由于技术限制,本研究未能对生成试题的大模型进行微调,也未能尝试多轮对话改进大模型输出,后续应进一步研究,探明这些方法是否能够改善大模型生成试题的质量和效率。具体可以从三个方面进行完善:一是采取重新构建或语料微调的方式,构建更适合于自动命题场景的专用模型;二是探索更多更灵活的任务提示模板,从提示工程的角度持续改进LLM的输出;三是尝试多轮对话改善大模型命题质量。

来源:永大英语

相关推荐