ACS Sensors:一种通过电子鼻进行膀胱癌诊断的方法

B站影视 2025-02-03 12:30 3

摘要:膀胱癌(UBC)是全球最常见的尿路癌症之一,其特征是高复发率、高转移率和高死亡率。早期准确检测UBC对于提高患者生存率至关重要。目前,尿细胞学和膀胱镜检查是诊断UBC的金标准。然而,这两种方法都有其固有的局限性。膀胱镜检查费用昂贵、侵入性强、不舒服,并且存在感

第一作者:简瑛瑛

通讯作者:刘涛平,吴巍炜

通讯单位:西安电子科技大学

DOI: 10.1021/acssensors.4c02073

背景介绍

膀胱癌(UBC)是全球最常见的尿路癌症之一,其特征是高复发率、高转移率和高死亡率。早期准确检测UBC对于提高患者生存率至关重要。目前,尿细胞学和膀胱镜检查是诊断UBC的金标准。然而,这两种方法都有其固有的局限性。膀胱镜检查费用昂贵、侵入性强、不舒服,并且存在感染等风险。细胞学虽然侵入性较小,但往往缺乏敏感性,严重依赖细胞学家的专业知识,引入一定程度的主观性,并可能导致诊断错误。这些局限性强调了迫切需要更可靠、无创和具有成本效益的诊断方法来早期检测UBC。

癌症细胞产生的尿挥发性有机化合物(VOCs)作为UBC快速诊断的生物标志物具有重要的潜力。气相色谱-质谱联用(GC-MS)已被证明可以有效地从尿液样本中识别潜在的挥发性有机物并诊断UBC。尽管GC-MS具有高效性、敏感性和特异性,但它耗时、昂贵,且缺乏便携性。

电子鼻(e-noses)因其便利性、便携性、速度和成本效益而成为一种有前景的诊断工具。一旦确定了化学传感器,机器学习算法对于准确识别气体至关重要。传统的机器学习算法已被广泛用于电子鼻数据分析。然而,症判别因子分析(DFA)模型在早期癌症中表现出低特异性,特别是在小样本情况下。总之,这些传统算法通常需要手动特征设计,可能会错过高维数据中的复杂模式,从而限制了它们的诊断准确性。

深度学习通过自动捕获数据中的复杂模式克服了上述局限性。然而,一维卷积神经网络(CNN)只能捕捉短程依赖关系,可能会忽略连续电子鼻数据中的全局语义信息。为了解决这个问题,Wu等人引入了TETCN,它顺序组合了Transformer编码器和CNN,用于电子鼻数据的全局和局部建模。然而,这种结构可能会导致浅层Transformer层在通过后续CNN层时学习到的全局依赖性丢失。Wang等人开发了一种用于估计气体混合物浓度的气图卷积变换器(GGCT)模型,实现了高精度和鲁棒的泛化。虽然图可以有效地表示拓扑关系,但为电子鼻数据设计适当的图结构并非易事,可能不适合序列数据。

尽管有这些令人印象深刻的性能,但在UBC诊断中部署现有的深度学习方法仍然面临着几个挑战。(1)样本量小,班级不平衡。由于高注释成本、隐私问题和时间限制等因素,收集高质量和标记的临床样本通常很困难,导致临床样本有限。与易于获得样本的类别(如生物标志物相关的挥发性有机化合物)相比,患者样本的稀缺可能会加剧类别不平衡问题。这两个问题都影响了深度学习模型的推广。(2)有效的特征提取器设计。许多当前的模型在处理序列数据时主要关注单一视角,要么使用1D CNN或递归神经网络(RNN)提取局部特征,要么使用长短期记忆(LSTM)网络和Transformers捕获长期依赖关系。这种狭隘的关注通常无法捕捉到数据中固有的复杂性,从而导致性能不佳。(3) 细粒度分类。训练的模型应易于修改,以准确区分UBC的亚类,特别是非肌肉浸润性膀胱癌症(NMIBC)和肌肉浸润性癌症(MIBC)。这种区别在临床实践中很有价值,因为它不仅对癌症分期很重要,而且对确定适当的治疗计划也很重要。

本文亮点

1. 本工作提出了TC Sniffer,这是一种用于少样本UBC诊断的新型双分支框架,利用易于获得的UBC相关挥发性有机成分(VOC)作为辅助分类类别。这些挥发性有机化合物是UBC的生物标志物,有助于模型了解更多UBC特有的特征,减少小样本场景中的过拟合,并反映临床样本的不平衡分布。

2. TC Sniffer采用基于强度的增强来解决小样本量问题和焦点损失,以减轻由于辅助VOC引起的类不平衡而导致的模型偏差。该架构结合了变换器和时间卷积神经网络来捕获长距离和短距离依赖关系,实现了全面的表示学习。

3. 使用从定制设计的传感器阵列收集的电子鼻数据的实验结果表明,TC Sniffer显著优于现有方法,仅用五个UBC训练样本就达到了92.95%的平均准确率。

图文解析

图1. 所提出方法的总体框架。在训练过程中,我们通过整合易于获得的UBC相关VOC样本并采用数据增强技术,增强模型以学习鲁棒特征,来解决临床样本稀缺的问题。在测试中,所提出的模型可以准确地识别UBC样本,并有效地区分NMIBC和MIBC。

图2. 拟议的电子鼻系统示意图。(a)气体产生的过程。(b) 气体反应室和传感器阵列。(c) 多通道电阻测量。(d) 电脑。

图3. TC Sniffer的网络架构。整个模型用特征级损失(Lfeatures)和分类损失(Lcls)进行训练,以提高性能。ResBlock×[3,6,4,3]表示有四个阶段,ResNet的各个阶段有3、6、4和3个残差块。

图4. 不同融合策略的图示。(a) 拼接融合。(b) 加法融合。(c) 注意力融合。

图5. 健康、水、肌层浸润性膀胱癌(MIBC)和非肌层浸润性膀胱癌(NMIBC)的混淆矩阵。

图6. 有和没有VOCs时模型性能的比较。

图7. 提出的 TC-Sniffer、ResNet、Transformer 和 SVM 在有和没有数据增强(DA)情况下的模型性能比较。

图8. 原始数据和增强数据的分布。(a) 健康。(b) UBC。(c) 水。

图9. 使用不同特征级损失和焦点损失训练的 TC-Sniffer 的混淆矩阵和特征空间。(a) 中心损失。(b) 三元组损失。(c) 对比损失。

图10. (a)传感器阵列组合的 F1 分数指标。(b)五个周期内对水的传感响应。

来源:华算科技

相关推荐