摘要:抑郁症是一种典型的精神障碍,目前筛查主要以抑郁诊断量表和医生问诊为主。计算机辅助抑郁障碍识别是基于人工智能技术的一种抑郁症筛查的新兴方式。本文针对传统测量工具的现状和不足,综述了当前计算机辅助抑郁识别方法,论述了抑郁识别数据集和基于面部图片、语音、文本等多模态
原文发表于《科技导报》2025 年第14 期 《 计算机辅助抑郁障碍识别研究进展 》
抑郁症是一种典型的精神障碍,目前筛查主要以抑郁诊断量表和医生问诊为主。计算机辅助抑郁障碍识别是基于人工智能技术的一种抑郁症筛查的新兴方式。本文针对传统测量工具的现状和不足,综述了当前计算机辅助抑郁识别方法,论述了抑郁识别数据集和基于面部图片、语音、文本等多模态数据的抑郁识别方法的研究现状,并对计算机辅助抑郁识别的优势与挑战进行了总结与展望。计算机辅助抑郁识别能够提供一种相对简便、规范化的筛查方式,但仍面临模型参数和特征解释不足、中文数据集有待扩充、现有数据集样本量较少的挑战。未来研究人员需要进一步提升抑郁识别数据集的样本量及模型准确率等指标,进行特征提取及模型构建的理论及实验分析,推进计算机辅助抑郁识别的临床应用。
近年来,各国关于抑郁症的报道层出不穷,抑郁患者自杀的新闻频出。根据美国精神病学会的《精神障碍诊断与统计手册》(DSM−5)诊断标准,抑郁症是一种典型的精神障碍,临床特征包括显著而持久的心境低落、兴趣丧失和精力缺乏。据世界卫生组织发布的《抑郁症及其他常见精神障碍》报告显示,全球范围内抑郁症患者超过3亿人,预计在未来10年将会成为全球第一大疾病负担源。《柳叶刀·精神病学》上发表的对中国全国性精神障碍流行病学调查研究显示,抑郁症的终生患病率为6.8%,12个月患病率为3.6%。抑郁症的发病机制比较复杂,遗传因素、心理−社会因素均可能导致抑郁症的产生。社会对抑郁症的认知偏见,患者自身及家庭对心理问题、精神疾病的认识不足,导致抑郁症识别率和就诊率仍处在较低水平。
目前,抑郁症的筛查主要以患者自评量表和医师临床诊断为主,可能受到医生主观判断和患者自我认知的影响,筛查工具和诊断方式具有一定局限性。抑郁症心理行为特征相关研究表明,患者在运动行为、语言表达、身体姿态和生理指标等方面表现出不同于健康人群的特征。在抑郁症的筛查和诊断中,对患者的心理和生理症状进行准确的识别至关重要。通过医生的临床经验和大规模的研究分析,能够提取出用于识别抑郁患者的特征标志。基于这些抑郁症状标志特征,计算机辅助抑郁识别技术能从行为、语言等维度提取有效区分抑郁患者与健康人群的特征标志,构建抑郁筛查模型,辅助医生进行抑郁症状的诊断和筛查。
计算机辅助识别算法能够从大规模的数据集中提取特征进行分类,输入机器学习模型中进行参数训练和模型调整,并基于训练的模型对新的数据样本进行预测。该方法的有效性依赖于特征提取的准确性和可靠性,特征选择容易对模型的性能和预测效果产生明显影响。随着深度学习等技术的发展,基于神经网络的分类器能够与深度特征提取器训练得到端到端的分类器,该方法相对手工提取特征的方法更加简便,但这种方法存在模型特征的解释性较弱、计算复杂度较高等问题。目前上述2类计算机辅助筛查算法均有相关学者进行研究,相比于抑郁自评量表等测量工具,计算机辅助方法包含更加丰富的多模态信息,能够进一步提升筛查的客观性,具有较高的应用和研究价值。
1 传统测量工具概述
目前,广泛应用的抑郁症筛查主要通过患者自评量表、医师临床诊断等方式,根据情绪低落、睡眠障碍、能力减退等抑郁典型症状出现的频次、严重程度及持续时长,评估是否有抑郁障碍及其程度。
抑郁障碍自评或他评量表等工具能够较直观地体现抑郁障碍的诊断标准,帮助医生和研究人员快速而准确地评估患者的情况,是常用的评估方法之一。贝克抑郁自评量表(BDI)、PHQ−9抑郁症筛查量表(PHQ−9)、汉密尔顿抑郁量表(HAMD)、抑郁自评问卷(SDS)等是目前主流的评估筛查量表,能够用于评估测评者是否有抑郁症状及抑郁程度。临床上对抑郁症的识别诊断主要基于国际疾病分类(ICD−10)或DSM−V中抑郁症诊断标准,结合病人的访谈情况、筛查量表及医生诊疗经验进行。
BDI是一份自我报告问卷,包括21项,一般耗时5~10 min。BDI在应用中发现部分抑郁症患者完成21项测评时存在困难,因此该量表也有修订编制的13项版本。评估者需要从认知、情感和躯体症状等方面对自我进行评估,用于诊断自我的抑郁症状程度。
PHQ−9是临床上对抑郁进行初步筛查的简易量表。PHQ−9主要用于测评在过去2周内是否表现出相应的抑郁症状、严重程度及持续时间,根据测评者不同症状出现的频次总分进行评估。该筛查量表的测评时间往往在5 min内,临床研究证明具有良好的信度和效度。
HAMD是抑郁症标准的评估工具之一,主要用于诊断和研究目的。HAMD分为17项、21项和24项等多个版本,一般需要20~30 min完成。评估者采用交谈和观察的方式,从抑郁情绪、自杀倾向、睡眠情况等角度对测评者进行评定,评定分数能够较好反映是否患有抑郁症及抑郁症的严重程度。
SDS是美国教育卫生部推荐用于精神药理学研究的量表之一,包含20个评分题,涵盖精神性−情感症状、躯体性障碍、精神运动性障碍、抑郁性心理障碍相关问题,上述4个方面的问题占比为10%、40%、10%、40%。SDS的使用和分析较为简单方便,不需要经过专门训练的医师指导评定,评定分数能够直观反映出患者的主观感受,目前已广泛应用于门诊病人的粗筛和情绪状态评定。
上述测评量表在临床实践中得到广泛应用,每个量表都具有其独特的优缺点,研究人员或专业医师可根据具体情况进行选择。在计算机辅助抑郁障碍识别数据集的构建中,抑郁测评量表也具有重要作用。由于有监督学习的机器学习算法依赖于准确的标签数据,目前广泛使用的基于人工智能技术的抑郁识别数据集中,往往以一个或多个上述量表的测评结果或医生诊断结果作为数据的真实标签。
2 计算机辅助抑郁障碍识别
传统测量工具可能受到医生主观判断和患者自我认知的影响,而计算机辅助识别能够通过患者图像、语音和文本等获取更加丰富的多模态信息,进一步提升筛查的客观性。基于人工智能技术的计算机辅助识别作为一种跨学科技术,利用计算机视觉、自然语言处理等人工智能技术,建立机器学习模型,基于输入模型的数据训练调整模型参数,再根据构建模型计算新样本的预测结果和类别概率,辅助疾病的诊断和筛查。根据抑郁患者在面部图像、语音、文本、脑电等模态数据上的差异,国内外的研究提取不同模态的特征,可以从多角度建立抑郁诊断评估工具(图1)。
图1 基于人工智能技术的计算机辅助抑郁诊断示意
2.1 计算机辅助抑郁识别数据集
计算机辅助筛查通过采集抑郁患者和健康对照者的视频、语音等模态数据,提取用于区分抑郁症状的特征,训练机器学习模型对新的潜在抑郁症患者进行预测。机器学习算法模型的训练依赖足够的数据以减少模型过拟合、提高模型精度,标准的抑郁识别数据集的建立对于筛查算法的训练至关重要。近10年,该领域开放的外文数据集包括:AVEC2013、AVEC2014、DAIC−WOZ、Pittsburgh等,中文数据集包括:MODMA、EATD、CMDC、Wenzhou−Kangning等,数据集概述如表1所示。
表1 近10年抑郁识别领域开源数据集
开源数据集为机器学习模型的训练提供了基础,推动了人工智能辅助筛查领域的发展,对抑郁识别领域的发展有明显的推动作用。数据集往往根据量表筛查或医师诊断出的抑郁人群或健康对照者给定标签,通过患者参与朗读、描述、访谈等实验采集视频、语音、脑电等多种数据模态。
在抑郁识别领域,自行采集和标注的数据集也具有一定的研究和应用价值。虽然这些数据集通常并未公开获取,但它们为研究不同文化背景对抑郁症状表达的影响,以及基于不同数据模态的抑郁识别算法的构建提供了理论基础和实验支撑。为分析中国抑郁症患者的面部特征,Wang等采集了山东省精神卫生中心的26名抑郁症住院患者和26名健康对照者在观看不同情绪图片时的面部视频数据,以分析抑郁症患者眉毛、眼睛和嘴巴处的特征,进一步扩充了中国患者的抑郁筛查数据。根据抑郁症患者肢体运动等模态上的特点,Wang等通过Kinect采集了126名抑郁症患者和121名健康者的步态数据,分析抑郁症患者肢体摆动、步幅变化和头部姿势及运动的特征,进一步扩充了与肢体运动相关的抑郁筛查数据。
2.2 面部视觉模态模型构建
抑郁人群的面部表达能力受损,且更易于表现出眼睛松弛、皱眉等悲伤情绪特征。根据抑郁症患者的面部表达特点,目前抑郁识别算法通过提取人脸面部关键特征进行筛查(图2),包括人脸特征点坐标、面部动作单元(AU)等。美国心理学家Ekman提出了一套面部表情编码系统(FACS)以描绘不同脸部肌肉动作和表情之间的对应关系。该系统根据人脸学特点,将面部表情划分得到若干相互独立又相互联系的运动单元,以准确地识别面部情绪和情感表达。2009年,Cohn等对参与者在回答HAMD中涉及情绪低落、内疚和自杀的3个问题时的面部行为进行手动FACS编码,结果显示根据所有AU进行分类能够得到79%的准确率,其中涉及夹肌收缩的AU14分类的准确率最高,得到的灵敏度和特异度分别为87%和89%。2013年,Meng等从连续的图像序列中计算运动历史直方图,通过局部二值模式(LBP)描述时序空间的细节,拼接得到的时空描述子通过偏最小二乘回归,在AVEC2013数据集上达到平均绝对误差(MAE)=7.08、均方根误差(RMSE)=8.81。2015年,Pampouchidou等提出一种使用鲁棒描述符动态进行面部表情分析的方法,结合Curvelet变化和LBP−TOP得到人脸特征,建立对抑郁症无、轻度、中度和重度等严重程度的有效的分类系统,混淆矩阵显示各分级的识别准确率分别为51.0%、63.4%、55.0%、55.5%。2018年,Wang等根据从山东省精神卫生中心采集到的抑郁症住院患者的临床视频样本,从中提取眼睛、眉毛和嘴角的运动变化,手动提取计算了左右瞳孔间距、眨眼频率、双侧眉毛和眼角间距等特征并通过SVM算法进行分类,达到了78.85%的准确率。
图2 抑郁识别视觉模态特征标志
随着深度学习技术的发展,目前的研究不再局限于手工提取特征——从原始图像数据中提取特征后进行分类、回归,而是通过卷积神经网络(CNN)等端到端学习的方法进行特征提取和模型训练,该模型也表现出了较高的准确性和鲁棒性。CNN是一种在图像识别领域表现优异的深度学习模型。通过卷积层、池化层和全连接层等基本结构,能够从原始图像数据中自动提取具有高层次语义的特征表示,以进行分类、回归等任务。在抑郁症分类诊断方面,CNN模型通过训练较大规模的抑郁样本数据,自动学习面部表情特征与抑郁症之间的联系,并对新的面部图像进行准确的分类预测。2017年,Zhu等通过深度卷积神经网络(DNN)分别提取视频中人脸静态外观和跨帧动态特征,构建联合调整层进行最终微调。在AVEC2014数据集上跨帧动态特征模型相较静态外观特征模型在RMSE、MAE上分别提升0.56、0.3,联合微调模型达到RMSE=9.55、MAE=7.47。
2D CNN已被广泛用于图像分类等领域,但其在处理带有时间信息的数据,如时间序列和视频数据方面存在局限性。为了解决这一问题,研究者提出了3D CNN,该模型利用卷积操作在时间维度上提取特征,从而能够有效地处理带有时间信息的数据。通过引入时间维度,3D CNN可以从时空域的角度分析数据,并且能够在时域上学习数据中的时间相关性,从而提高对时间序列和视频数据的建模能力。相比于2D CNN,3D CNN在处理时间序列和视频数据方面具有更好的表现,能够有效地应用于抑郁识别模型的构建。2019年,de Melo等从采集对象脸部全局和眼睛局部区域中提取时空特征,通过3D卷积网络(C3D)融合来提高抑郁症预测的准确率,在AVEC2013和AVEC2014上的实验结果表明,结合全局和局部的C3D方法RMSE达到8.26、MAE达到6.40,在AVEC2014数据集上相对于全局C3D方法在RMSE和MAE指标上分别有0.68和0.64的提升。
3D CNN能够广泛应用于视频分类、动作识别等任务,并取得了显著的成果。然而,3D CNN在处理序列数据时存在局限性——它无法充分考虑序列中不同时间步之间的关系。为了解决这个问题,学者们引入了注意力机制,通过为不同时间步赋予不同的权重来强调序列中的关键部分,从而提高3D CNN的性能。这种方法能够让3D CNN更加关注序列中重要的部分,提高其对于序列数据的建模能力。注意力机制的引入可以使3D CNN能够更好地处理时间序列数据,并在视频模态的抑郁识别任务上获得了良好的表现。2021年,孙浩浩等提出通道层注意力机制的DNN,通过多支路卷积网络分别提取眼睛区域、嘴巴区域和面部的特征向量进行融合,在全连接层输出最后分数。该实验在AVEC2013和AVEC2014训练集上得到加入了注意力机制、融合了多特征的模型,在AVEC2013数据集上达到MAE=6.74、RMSE=8.70,AVEC2014数据集上达到MAE=6.56、RMSE=8.56,优于基线模型和其他对比模型。2022年,Chen等通过神经网络结构搜索技术设计了一个针对多面部特征的优化模型,通过CNN−GCN的端到端网络,在AVEC2016数据集上RMSE和MAE相较于SOTA提升了27%和30%。2023年,Liu等提出一种部分和关系注意力网络,通过2种注意力机制计算不同局部特征对抑郁识别的贡献,进一步将所有特征聚合成更能提供抑郁症信息的表示并用于抑郁识别,在AVEC2013和AVEC2014上实现了最优性能,MAE和RMSE分别达到6.08和7.59。
在抑郁识别领域,识别模型的迭代与深度学习的技术演化发展紧密相关。最初,应用2D CNN技术进行面部静态二维图像的分类和识别,虽然简单高效,但存在对时间序列信息处理不足的问题,对采集的视频数据无法很好挖掘帧与帧间的信息。3D CNN技术的引入扩展了模型对于动态视频数据的建模能力,更好地利用了时间维度的信息。随着注意力机制的广泛应用,有注意力的3D CNN框架进一步增强了模型对数据的理解和处理能力,为处理复杂数据的抑郁识别问题提供了更有效的工具和方法(图3)。这种演化从简单到复杂、从二维到三维、从静态到动态,提高了对于数据中关键特征的挖掘,并进一步提升了模型在准确率等方面的表现,对于抑郁识别问题的研究具有重要的意义和实际应用价值。
图3 抑郁识别视觉模态模型流程
2.3 语音模态模型构建
音频信号是抑郁症筛查中重要模态之一,能够有效反映人的心理状态和病理学特征。目前针对音频模态的抑郁识别研究以手动提取特征为主,即针对抑郁患者语速慢、声音低沉等言语表达中的标志特点,通过对采集的抑郁患者的声音信号进行分析处理,提取音频的能量、响度、梅尔频谱、过零率等方面的差异特征,建立算法模型进行训练和预测,从而实现较客观有效的辅助筛查(图4)。由于特征提取的有效性对模型的性能有重要影响,因此特征的设计一直是研究者关注的重点。手工特征的提取需要通过多个预处理步骤,例如根据短时傅里叶变换等方法,将原始音频信号转换为频谱图等表示形式。这些特征经过降维、归一化等处理后,输入到分类模型进行训练和预测。该过程需要专家的领域知识和经验,其设计能够反映研究者对标志特征的构建和筛选,加强对特征的全面解释,但往往也比较耗时和复杂。2013年,Joshi等计算了基频f0、响度、强度和梅尔频率倒谱系数(MFCC)等音频特征的有效性,融合从视频中提取的视觉特征在30名抑郁患者和30名健康对照者的临床实验数据上进行分析,得到不同特征组合在各分类算法上的最大灵敏度、特异度和准确率,最高准确率达到65.92%。2014年,Ooi等提出多通道加权语音分类方法,对韵律、声门和频谱特征独立分类后进行加权,判断一个人在未来2.5年内出现抑郁症状的风险,准确率达到74%。2017年,Kiss等分别对阅读和自发讲话场景下的特征进行提取,分析得到在自发讲话任务场景下的差异体现在与速度(语速、停顿时长等)相关的特征,在朗读任务场景下的差异体现在共振峰轨迹等语音特征,最终在朗读语音样本上达到83%的检测准确率,在自发语音样本上达到86%的检测准确率。
图4 抑郁识别语音模态模型流程
随着深度学习技术的发展,越来越多的研究开始探索在音频信号处理中使用端到端的深度网络。端到端的音频识别网络能够直接从原始音频数据中学习特征,并进行分类任务。这种方法使用CNN、循环神经网络(RNN)等深度学习模型,通过多个卷积层、池化层等对原始音频数据进行处理,提取出音频的高层次特征,然后再将这些特征输入到全连接层进行分类预测。由于不需要额外的特征提取步骤,端到端的音频识别网络能够有效减少特征工程的工作量和误差,且在抑郁识别实验中表现良好。2018年,He等提出了一种手动特征提取和深度学习特征提取相结合的方式,先通过DNN从频谱图和原始语音波形图中学习特征,然后手工从频谱图中提取纹理描述符,并通过联合微调层结合手工和网络特征以提高抑郁症识别性能,在AVEC2013和AVEC2014数据集上的RMSE和MAE指标优于对比算法。2021年,Zhang等提出了抑郁检测的音频嵌入方法DEPA,该方法训练了自监督学习音频嵌入模型,在抑郁症和健康对照者数据集上进行预训练后应用于下游任务的模型分类,F1值达到94%。2022年,Sardari等通过端到端卷积神经网络的自动编码器CNN AE自动提取相关特征,并采用基于聚类的抽样技术,在DAIC−WOZ数据集上相较于对比方法在F1值上提升了7%。2023年,Du等提出一种结合线性预测编码(LPC)和MFCC的语音链模型,分别描述语音生成和感知的过程,通过CNN和长短时记忆网络(LSTM)依次捕获段内和段间的动态抑郁特征进行分类,在DAIC−WOZ和MODMA数据集上分别取得77%和86%的准确率。2024年,Das等结合MFCC和通过CNN提取的高级频谱特征,在DAIC−WOZ数据集和MODMA数据集上的检测准确率超过90%。
2.4 文本模态模型构建
文本数据也是抑郁识别的重要模态之一,研究人员通常会收集社交媒体平台如Twitter、Facebook等用户发布的文本数据,通过自然语言处理和文本挖掘等技术挖掘数据中有关个体的健康状况、情绪状态等方面的信息,用于辅助评估抑郁的严重程度及潜在风险。然而,在许多国家和地区存在法律限制和隐私保密问题,诸多研究采用自行采集的文本数据集或从音频数据中转录得到文本数据。
目前的研究根据抑郁症语言使用模式特点,通过词频计数、情感极性分析、词嵌入等方法提取文本中与抑郁症状标志关联的特征,从而进行抑郁识别算法分类(图5)。抑郁文本分析的相关研究主要包括基于规则的方法和基于机器学习的方法。基于规则的文本分析利用预定义的规则和模式来解析和提取文本中的有用信息。这种方法通常使用正则表达式和语法解析器来识别和提取文本中的关键信息。基于机器学习的方法使用大规模文本数据进行训练,可以在分类和识别等下游任务中应用,具有高准确、可扩展等优点,通过改变模型参数和算法,适应各种不同的文本数据,还能够通过增加训练数据和特征选择等方法,进一步提高模型的性能。但这种方法需要大量的训练数据和计算资源,对于文本特征的解释性较弱,使得该方法在深入了解抑郁症的机理和相关因素方面存在局限性。
图5 抑郁识别语音模态模型流程图
随着深度学习等技术的发展,通过词嵌入等方法将文本中的单词或短语进行向量表示的研究愈来愈普遍。目前应用于文本分类模型的典型特征生成方法包括OneHot编码、关键词权重(TF−IDF、Text-Rank等)、主题模型(LSA、LDA、LDA2Vec等)、词嵌入(BERT Embedding)等。2016年,Williamson等从DAIC−WOZ数据集的文本中分别提取了语义内容特征和语义上下文特征。语义内容特征由GloVe词嵌入模型生成词向量的平均向量表示对话语句,用主成分分析和零相位成分分析进行稀疏编码后,通过支持向量回归算法对表示向量和PHQ−9分数进行回归。语义上下文特征从文本中提取抑郁、感受、治疗和自杀4个指标,计算4个指标的总和。结果显示,DAIC−WOZ数据集本文对话中提问部分的最大F1值达到75%,回答部分的最大F1值达到62%。2022年,Amanat等通过独热编码和主成分分析从Twitter抑郁文本数据集中提取特征,进一步使用RNN−LSTM模型进行预测,10折交叉验证的结果显示模型达到99.44%的灵敏度和99.7%的特异度。2022年,Uddin等从医学和心理学专家预定义的抑郁症状作为特征,采用LSTM算法进行分类,在挪威公共在线频道年轻用户的文本数据集拆分的2个数据集上分别达到98%、99%的准确率,并通过可解释人工智能对机器学习模型的结果进行了解释。2023年,Yadav等提出一种基于患者访谈文本转录的抑郁识别方法,结合了用于处理语言信息的双向门控循环单元和用于集成模型输出的全耦合网络,该方法可以提高识别的准确性和效率,F1值达到92%。
2.5 多模态融合及模型构建
计算机辅助抑郁识别依赖视觉、语言和社会特征等多维指标的综合判断,计算机视觉、自然语言处理、语音处理等领域的专家倾向于应用自己对应领域的算法模型,但单一模态数据不足以提供足够的信息,需要综合多个领域、多种模态的专家知识,以实现抑郁相关多维指标特征之间的有效信息融合。多模态技术运用多种不同的信息以更好地捕捉和理解事物的复杂性,广泛应用于情感识别等领域。在这些领域中,多模态数据可提供关于事物的多方面信息,对于理解事物的复杂性和捕捉不同维度的特征提供有力支持,进一步提高抑郁检测识别模型的准确性。
多模态特征融合抽取来自不同模态数据的信息,整合成更丰富的多模态特征表征,以提高模型的鲁棒性。但是,特征的有效融合仍是目前的研究难点之一。目前比较常见的特征融合方法有特征拼接、跨模态注意力机制和条件批归一化(CBN)等。其中,特征拼接是一种简单直观的特征拼接方式,将来自不同模态的特征向量进行拼接或加权,拼接后的融合特征向量输入神经网络。跨模态注意力机制则通过计算模态间的注意力权重,对模态特征进行加权融合。CBN则是通过在批归一化中引入额外的条件信息,来增强模型对不同模态数据的适应能力。
随着人工智能和深度学习技术的进步,尤其是跨模态的特征融合技术的不断发展,近几年利用多模态数据进行抑郁识别的研究受到了越来越多研究者的关注。通过结合多模态的数据,能够更全面地了解患者的情况,提高抑郁识别模型的准确性和有效性。2019年,Wang等融合了眼球运动、记忆特征、认知风格特征和网络行为特征用于诊断抑郁倾向,通过模型堆叠的方式提取非线性特征,达到模型泛化效果。2021年,Schultebraucks等从非结构化临床访谈中提取面部、语音、语言和运动特征作为输入对创伤后应激障碍(PTSD)和抑郁症状态的分类,解释了患者和健康人群在运动协调、处理速度、情绪偏差、持续注意力、控制注意力、认知灵活性、认知抑制和执行能力等认知功能上的差异,结果显示基于视频和音频的标记能准确区分PTSD状态,F1值分别为0.83、0.8。2022年,Liu等通过采集参与者在自然行走、情景访谈、阅读情感文本和观看情感视频等任务时的视频和音频,分别提取视频帧和音频特征,利用VGG-Face、ResNet50、VGG16和DenseNet网络得到不同模态的特征向量,通过门控循环单元分别决策后进行结果融合,在测试集上的负性样本、中性样本和正性样本的RMSE分别为10.59、10.64和10.13。2023年,Fang等提出了一种具有多层次注意力机制的多模态融合模型,第一阶段通过2个LSTM和一个双向LSTM(Bi−LSTM)分别提取视觉、音频和文本特征,第二阶段通过注意力融合网络利用模态之间的多样性和互补性进行抑郁识别,在DAIC−WOZ数据集上实现了RMSE最优。
2.6 其他模态数据及模型构建
肢体运动、脑部信号等生物标志也能够用于抑郁识别。根据抑郁患者步态和运动等方面表现出的症状,Wang等通过参与者的步态数据提取左右臂摆动、头部垂直运动、左右步幅和步行速度等时空特征进行抑郁识别。特征包括Kinect采集的25个关键点在x,y,z轴上的均值、标准差、偏度和峰度等时域特征,以及离散傅里叶变换得到的频域特征。模型融合所有特征进行10折交叉验证,分类灵敏度、特异度和AUC分别达到0.94、0.91和0.93。针对抑郁患者的脑电信号差异,深度学习方法,尤其是CNN和LSTM,被广泛应用于特征提取、抑郁识别分类和评估任务。2020年,Zhang等提出了一种基于静息态脑电的抑郁症分类脑功能网络架构,以考虑电极之间的相关性和大脑异常拓扑结构的变化。对不同脑电频段和不同脑区进行统计分析,结果表明大脑的改变主要在左脑的额叶、颞叶、顶枕区和右脑的颞叶区,且theta频带左中央区域的平均最短路径长度、聚类系数以及右顶枕区域的节点中介中心度与抑郁症的PHQ−9评分显著相关,最高分类准确率达到93.31%。2023年,Xu等针对静息态脑电,提出一种多分辨率CNN结合LSTM以及残差挤压和激励的深度学习模型,结果表明脑电频段越高抑郁识别效果越好,在高频8~30 Hz实现了(98.48±0.22)%的最高分类准确率。
3 计算机辅助抑郁识别的优势与挑战
现有研究根据抑郁患者在面部表情、语言表达和肢体动作等特征上的差异,从图像、音频和文本多模态数据中提取特征,通过机器学习算法对抑郁症状进行识别和分类,在准确率、召回率、F1、RMSE和MAE等指标上达到了良好的效果,说明心理学、临床医学等领域提取的标识特征在抑郁识别领域的有效性。
计算机辅助识别方法能够提供一种相对简便、规范化的筛查方式,具备与目前广泛使用的量表筛查、医师诊断等方式协同增效的潜能,尤其针对传统抑郁筛查量表中存在社会称许性误差、对主观判断依赖高等问题,计算机辅助筛查能够提供更加客观的筛查结果,具体表现为以下3方面。
1)现有诊断方式依赖于患者对自我的合理评估,但由于心理测量中普遍存在的社会称许性等问题,患者对自己的评估往往倾向于偏离难以被社会接受的消极行为,偏向能够被社会认可的积极行为,导致心理测评的结果出现偏差。而计算机辅助筛查能够根据患者的面部行为、语言表达等数据,规范提取筛查指标、构建识别模型,结果相对客观准确,能够辅助医师进行抑郁症筛查。
2)抑郁的诊断筛查方法较为繁琐,在社会医疗资源紧张的情况下难以广泛大规模推广使用。目前,抑郁诊断很大程度依赖行为症状学指标,在临床实践上具有可操作性,但依赖医师对患者心理状况的问询和对临床表现分析,对医师的主观判断依赖程度较高,容易受到医师临床经验、沟通技巧等因素影响,且诊疗的成本较高,容易给患者及其家庭带来经济负担。而计算机辅助筛查方式较容易广泛地筛查,尤其是针对抑郁高风险的人群进行便捷、快速的检测。此外,人工智能模型的训练和评估过程可以在大规模样本上进行,从而构建更具代表性和准确性的模型。
3)由于对抑郁症等心理精神疾病的病耻感与文化易感性,中国抑郁患者相较于国外患者更容易表达躯体症状的不适,包括失眠、体重减轻、食欲不振、头痛、肠胃道或呼吸系统症状等,在问诊过程中症状表述容易和其他综合性疾病混淆,出现误诊和漏诊。因此,采集适用于中国患者的抑郁识别数据、构建相应的模型算法和筛查系统对于筛查的准确性至关重要。目前抑郁识别算法达到了良好的识别效果,但仍面临诸多挑战,包括中文数据集有待扩充、现有数据集样本量较少、模型参数和特征解释不足等现象,有待进一步研究。
首先,相关研究的开放数据集以英文居多,中文数据集有待扩充。由于国内外抑郁患者在面部特点、语言使用特点等方面存在一定差异,国外数据集的研究结果在中国人群中的适用性不明确、相关研究理论不足,仍需要更多的理论及实验支撑。中国本土化的抑郁筛查工具的发展是近年来备受关注的研究方向之一。本土化的抑郁症筛查工具的发展,在充分考虑中国人文化背景和心理特点、构建更加精准的指标和方法的基础上,对于提高应用于中国患者的抑郁筛查工具的有效性和准确性上具有重要的意义。
其次,目前抑郁识别数据集样本量较少,且部分数据集有较明显的样本分布不平衡现象,即健康对照组的数据样本量明显多于抑郁患者的数量。非均衡样本对于抑郁识别的分类算法的准确性和有效性存在考验。
最后,目前研究对提取特征和模型参数的解释性不足,模型的输入输出和内部的工作原理和运行机制不透明,多模态抑郁识别算法在临床上难以得到充分应用。相关研究实验结果及分析中,不仅仅需要提升模型准确率等指标,特征提取及模型构建的理论及实验分析也尤为重要。
4 结论
抑郁量表作为目前抑郁症状主要筛查方式,主要根据典型症状出现的频次、严重程度及持续时长,评估测评者是否有抑郁症状及抑郁程度,具有良好的信效度。但传统测量工具可能受到医生主观判断和患者自我认知的影响,客观性和便捷性不足。随着机器学习等技术的发展,计算机辅助筛查方式为抑郁症状筛查提供了新的解决方案。基于视觉、语音、文本等多模态特征,模型能够有效对抑郁症状进行分类分级,提供了一种相对快速、准确的识别方法。目前抑郁识别检测算法在准确率、召回率、F1值等指标上已达到了较好的指标效果,但开放数据集样本量较少,且部分数据集的样本分布不均衡,为进一步提升算法精度带来了挑战。在抑郁识别工具的应用上,目前抑郁识别研究中模型特征和参数的可解释性不足,相关理论及实验研究对抑郁识别算法未来在临床上的落地应用尤为重要。
本文作者:辜雅婷,张迟,马飞,贾晓健,倪士光
作者简介:辜雅婷,清华大学深圳国际研究生院,硕士研究生,研究方向为人工智能,心理和行为大数据;马飞(通信作者),人工智能与数字经济广东省实验室(深圳),研究员,研究方向为媒体内容理解与生成;倪士光(共同通信作者),清华大学深圳国际研究生院,教授,研究方向为积极和健康心理学及人工智能交叉创新。
文章来 源 : 辜雅婷, 张迟, 马飞, 等. 计算机辅助抑郁障碍识别研究进展[J]. 科技导报, 2025, 43(14): 82−93 .
☟
《科技导报》创刊于1980年,中国科协学术会刊,主要刊登科学前沿和技术热点领域突破性的研究成果、权威性的科学评论、引领性的高端综述,发表促进经济社会发展、完善科技管理、优化科研环境、培育科学文化、促进科技创新和科技成果转化的决策咨询建议。常设栏目有院士卷首语、科技新闻、科技评论、专稿专题、综述、论文、政策建议、科技人文等。
来源:科技导报