AMH-CAT:破解青少年心理危机评估“六个学期一套题”难题

B站影视 韩国电影 2025-09-12 11:27 1

摘要:青少年心理健康计算机自适应测验(Adolescent Mental Health Computerized Adaptive Testing,AMH-CAT)的出现,使得我国青少年心理健康评测工具彻底实现了一次跨越。据此,开启“千人一面”迈向“千人千面”的新局

作者:王勉

引言:

这是青少年心理健康危机评估史上的一次飞跃。

说飞跃,原因何在?

青少年心理健康计算机自适应测验(Adolescent Mental Health Computerized Adaptive Testing,AMH-CAT)的出现,使得我国青少年心理健康评测工具彻底实现了一次跨越。据此,开启“千人一面”迈向“千人千面”的新局面。

青少年心理危机测评史上“六个学期一套题”,甚至“十二个学期”一套题的现象将被改写

当下,我国大部分地区,中小学在进行学生心理健康危机评估时,使用的量表要么分小学和中学两个学段,更好一点的分为小学、初中和高中,无法做到千人千面。这就意味着,比如初中三年共六个学期,初一第一学期学生答的量表题目和初三第二学期学生答的题目完全一样,千人一面。换句话说,初中三年六个学期一套题,每次的练习效应,导致越往后,很多题目的答案都能背下来,其结果可以想象……

国家战略下的学生心理健康工作

近年来,国人心理健康问题严重,尤其是中小学师生心理健康问题突出,抑郁、焦虑,进而导致的自杀、伤害他人等恶性事件频频见诸媒体。

近几年,国内几次轰动全国的公共危机事件,比如,2021年5月成都49中中学生坠亡事件,2022年10月江西上饶胡鑫宇事件,2023年12月河南省宁陵县初中生坠亡事件,2024年3月河北省邯郸市仨未成年中学生合谋杀害同学事件,等等,其背后都与青少年心理健康息息相关。

“一个家庭老人去世,觉得是生命规律;一个家庭失去孩子,至少毁三代。”

频频发生的悲剧,给家庭、社会带来的创伤,不言而喻。

2021年《教育部办公厅关于加强学生心理健康管理工作的通知》,明确要求各县区每年面向小学高年级、初中、高中开展一次心理健康测评。2023年半年时间,国家更是多部门联合下文,一是教育部等十三部门《关于健全学校家庭社会协同育人机制意见》,二是教育部等十七部门《全面加强和改进新时代学生心理健康工作专项行动计划(2023—2025年)》,再次强调“用好家校社协同心理关爱平台,加强心理健康测评。”

这些政策的核心目标之一是建立“一生一策”或“一人一档”的学生心理健康档案。这标志着一种管理思路的转变,即从被动的危机干预转向主动的、纵向的健康状况追踪,为早期识别和有效干预奠定了数据基础。

教育部体卫艺司副司长、一级巡视员刘培俊在专项行动计划发布会上表示,这标志着加强学生心理健康工作上升为一项国家战略,摆在更加突出、更加重要的位置。

这些文件当中,多次提及的基础工作就是“心理健康测评”。

为什么?

测评,量表“千人一面”的局面为何难改变?

要测评,首要的就是选用量表工具,换句话说,就是使用什么样的量表。

有人会说,为什么这么长时间都是“千人一面”,而不是“千人千面”?

这就要从中国心理测量学发展的历史来说。专注于心理测量与智能自适应测评研究领域、华中师范大学博士、阜阳师范大学教育学院青年教师刘思杨介绍,标准化测验的理念在中国源远流长,其雏形可追溯至古代的科举制度。这种悠久的文化传统使得公众对于统一形式、统一标准的考试模式有着较高的接受度和熟悉感。20世纪初,科学心理测量学被引入中国,一系列智力、人格等领域的测验被翻译、开发和修订。1931年“中国测验学会”的成立,标志着该领域在中国进入了早期的专业化发展阶段。

然而,中国心理测量学的发展并非一帆风顺,其进程曾因历史原因而严重中断,整个学科受到巨大冲击。直到20世纪70年代末至80年代,该领域才得以重建。在这一重建时期,社会各界(尤其是教育和工业领域)对实用、可规模化的测评工具产生了迫切需求。当时,技术最成熟、计算最简便、理论最普及的心理测量框架无疑是经典测量理论(Classical Test Theory, CTT)。

CTT是传统心理与教育测验的理论基石,例如在中国广泛使用的《90项症状清单(SCL-90)》便是基于此理论构建的。CTT模型的核心特征是,一份测验由一套固定的题目组成,所有受测者都回答相同的题目,其分数通常由答对或认可的项目总数决定。这种模式的本质就是“千人一面”(one-size-fits-all)。

因此,当前中国心理测评领域普遍存在的“千人一面”现象,并非简单的创新不足,而是一个由20世纪独特的历史进程所塑造的“路径依赖”结果。其发展轨迹是:中国心理测量学的现代化进程并非平滑的线性演进,而是经历了一次深刻的断裂和随后的需求驱动型重建。在重建阶段,首要任务是满足大规模、高效率的筛选需求。CTT测验以其易于编制、便于纸笔施测、评分直观的特点,完美契合了当时评估数百万学生的现实需要。

这导致了基于CTT的测量工具被大规模推广和标准化,并围绕其建立了一整套的制度流程和人才培养体系。整个行业的从业者和研究者都深受CTT思想的熏陶。这种先发优势形成了一种强大的路径依赖和思维惯性。

“同时,为确保跨校、跨年级可比和便于督导,教育、卫健等系统更偏好‘一把尺子’统一施测。另外,千人千面需要大题库、精确标定与强大平台运维,投入巨大,人才门槛要求也很高,很多学校预算有限,只能匹配一次性固定量表。”刘思杨说。

现实呼唤,研发符合我国青少年心理健康特征的“千人千面”的量表

不难看出,我国心理测量发展之路在曲折中前行。“千人一面”的量表工具虽有很多缺憾,但在我国心理测量学发展历程上,在特定环境下,所肩负的使命不可替代,并且在当下以及未来相当长一段时间依然会发挥重要作用。

心理学界众所周知,经典测量理论(CTT)因为测验本身固定格式,是静态的,因此,它是将个体与一个参照群体(常模)进行比较,最终结果只能是判断某个个体在群体中相对位置。换句话说,“只能看到这名学生是高于还是低于平均水平?”至于这个个体更精准的心理状况,CTT难以实现。与此同时,静态的长问卷,不仅容易让人产生疲劳,还增加测评者负担,效率较低。即便是基于(CTT)理论构建的、在中国广泛使用的《90项症状清单(SCL-90)》也仅仅是从“心理症状”单维度进行筛查,且面向的主要对象是成年人。

历史车轮滚滚向前。现实呼唤,研发符合我国青少年心理健康特征的“千人千面”的量表迫在眉睫。

教育部、国家卫健委主要领导高度重视。2022年6月29日,教育部举行了由绿萝心数、微医等机构研发的“家校社协同心理关爱平台”上线启动仪式。与以往量表相比,该平台使用的量表最大的不同就是,不仅测试心理症状,而且包括造成症状的原因,以及心理韧性,三大维度十八个子维度。

家校社协同心理关爱平台所使用的量表,和以往的量表相比,又大大前进了一步,但始终没有摆脱经典测量理论所固有的弊端。


AMH-CAT:不仅是一次技术升级,更是一场深刻的范式革命

2023年初,尽管仅仅成立两年,目睹了新冠疫情肆虐的国家心理健康和精神卫生防治中心(简称国家心理健康中心)领导,贯彻以人为本、生命至上的理念,深深地认识到研发符合中国青少年心理健康特征的指标体系刻不容缓。在这样的背景下,经过层层调研、比对,国家心理健康中心委托北京心数矩阵科技有限公司(绿萝心数)牵头进行“青少年常见心理问题防治与研究”课题研究。通过此课题,要开发客观、精准、高效、系统化的量表在内的系列成果,最终建立一套符合中国青少年心理健康特征的智能化数字监测与家校社生态共育体系。

在国家心理健康中心领导下,由心理学泰斗郑日昌教授作为首席专家,召集行业专家共同研讨、商议规划“青少年常见心理问题防治与研究”课题推进。面向全国招募了30多家牵头参与机构,涵盖卫健系统、教育系统、体育系统,数百个学校等独立主体参与。

大家一致认为,这个课题的理论支撑就是依据超越了经典测量理论(CTT)局限的、更先进的现代测量框架项目反应理论(IRT),并以此为基石,提出适用于我国青少年心理健康评估工具——青少年心理健康计算机自适应测验(AMH-CAT) 。

为什么要以项目反应理论(IRT)为支撑?

华中师范大学教授王伟军介绍,除了项目反应理论是目前最先进、最流行的前沿理论外,其核心思想在于,它不再仅仅关注受测者的总分,而是通过数学模型来精确刻画受测者的潜在特质水平(如焦虑程度)、每个测验项目的自身特性(如难度、区分度),以及受测者在特定项目上做出特定反应的概率之间的关系。

IRT最具革命性的一点是,它成功地将受测者的特质水平和项目的参数置于同一个数学量尺上。这使得直接比较二者成为可能,即我们可以为特定特质水平的受测者,精确地匹配与之难度相当的题目。

换句话说,相对于经典测量理论(CTT)的静态,自适应算法AMH-CAT等于与受测者在进行一场“智能对话”。计算机自适应测验(CAT)的逻辑,最通俗的类比是验光师配眼镜的过程。验光师不会让顾客试戴所有度数的镜片,而是先给出一个镜片,然后问“更清楚还是更模糊?”,并根据顾客的回答来选择下一个最能提供有效信息的镜片。CAT对测验题目的选择也是如此。

AMH-CAT的运作遵循一个动态的、迭代的循环。它的每一次启动,测验通常从一个中等难度的题目开始。根据学生对该题的作答情况,系统会对其心理健康状态进行一个初步的估计。接着,算法会从整个题库中,搜寻出能够最大化地提供信息、最有助于修正当前估计值的下一道最佳题目。如果学生答对了或认可了某个症状,系统会选择一道难度稍高的题目;反之,则会选择一道难度稍低的题目。作答后,系统呈现新题目,获取学生反应,然后重新计算出一个更精确的特质水平估计值。这个“估计-选题-作答”的循环不断重复,直到对该学生特质水平的测量精度达到预设的标准后,测验便会自动终止。

这种“量体裁衣”的自适应过程,直接带来了“省时、省题、效果好”三大优势。

省时、省题的高效性主要体现在,由于呈现给每个学生的题目都是经过精心选择、最适合其当前水平的,因此避免了在过易或过难的题目上浪费时间。这使得CAT通常能用远少于传统固定长度测验的题量(有时可减少50%以上)。

更佳的受测体验体现在,通过动态调整题目难度,测验过程能维持在一个适当的挑战水平,这有助于减少学生的挫败感和疲劳感,提升其参与度和作答动机。

课题分为两期进行,一期主要解决构建符合当代中国青少年心理特征的测评维度体系。二期课题在一期课题基础之上,研发计算机自适应技术在心理普测中的应用及测评后的工作流程方案。

二期课题理论基石就是项目反应理论,依托家校社协同心理关爱平台(绿萝云平台https://www.lvluoxinli.com),对来自14所中小学校(隶属于某市12个县区)的学生进行调查,数据经过平台授权后脱敏使用。共获取9761份样本数据,从小学四年级到高中三年级。删除连续作答和缺失作答等无效数据后,有效样本8679人,年龄9-19岁,男生4263人,女生4416人;小学生1234人,初中生5770人,高中生1675人。通过检验单维性、独立性、区分度和条目功能差异(DIF)构建条目库。采用编程构建青少年心理健康计算机自适应测验(AMH-CAT)算法,并通过真实与模拟数据验证信效度。以中小学心理访谈评估记录表作为效标工具,评估AMH-CAT对心理健康危机等级的预测效度。结果条目库43个条目总体满足单维性和独立性,区分度均>0.80,在性别上无DIF。AMH-CAT在各终止规则下,ABS值0.87(P

如果对上述这段话感到生僻、艰涩、难懂,那么通俗地说,就是依据项目反应理论,依托绿萝云平台,采用编程构建青少年心理健康计算机自适应测验(AMH-CAT)算法,对 8679个有效样本在千人千面的测评方式下,研究团队对最终数据进行严格清洗、分析和验证,最终发现青少年心理健康计算机自适应测验( AMH-CAT)具有理想的效度、信度和评估效率。

好成果亟待从“深闺”走向普世

今年6月25日下午,一场围绕“医教协同”促进青少年心理健康研讨会,在国家心理健康中心举办。来自北京、山东、四川、山西、贵州、广西、河南等地教育、卫健部门领导,以及从事心理健康工作的专家、学者齐聚一堂,共同探讨医教如何协同促进青少年心理健康。

大家纷纷建言献策,但这当中有个小插曲就是,几位在县区基层主管心理健康工作的官员以及在一线从事心理健康教学的老师反映,青少年心理健康评测量表混乱以及缺乏好的量表,是他们在基层从事心理健康工作面临的一大难题。西部地区数一数二某省会城市教科院干部反映,他们现在使用的量表依然是纸质的量表,还没实现电子化,每次测评用车拉问卷,费时费力效率低。省会城市如此,其他城市可想而知。另有教育主管部门专家反映,他们使用的量表就是初中、高中“十二个学期一套题”,而且现在有的机构搞免费评测,但测完后没有服务,更谈不上专门的报告解读。缺好的量表工具以及量表使用混乱,这是基层不少地方存在的现象。

“我们希望青少年心理健康计算机自适应测验(AMH-CAT)量表能被更多人认知,赋能更多全国中小学校的学生。”课题首席专家、北京师范大学教授郑日昌说,“因为,从更深层次看,从基于 CTT 的传统测验转向基于 IRT 的AMH-CAT,其意义远不止于技术工具的迭代,它代表了一种评估理念的根本性转变:即从‘基于群体的排序’转向‘聚焦个体的诊断’。”

他说,“传统 CTT 测验的核心功能是将个体与一个参照群体进行比较,以判断其在这个群体中相对位置,而 CAT 的核心功能则以尽可能高的精度来估计个体在某个潜在特质上的具体表现。这名学生具体的抑郁水平是多少?对这个估计值的误差范围有多大?测验是一个动态的过程。这种转变重塑了评估的目的,使其从一个用于分类和筛选的工具,演变为一个用于精确诊断的工具。对于心理健康领域而言,这是革命性的。它使得干预措施不再仅仅基于一个粗略的‘高危’标签,而是建立在对个体需求水平的精细化理解之上,为真正实现个性化的心理支持及干预服务铺平了道路。当务之急,题库如何增大,与AMH-CAT匹配的人才队伍如何逐步跟上等,都是下一步要解决的难题。”

(作者|课题组成员 绿萝心数总裁王勉)

来源:绿萝心理

相关推荐