摘要:多标签分类是计算机视觉领域的一项基础任务,广泛应用于图像分析和智能监控等领域。不同于单标签分类,多标签分类需要同时考虑样本可能属于多个类别,从而为每个样本预测一个或多个相关类别标签。这种方法能够提供更丰富的信息,特别适用于复杂场景。
多标签分类是计算机视觉领域的一项基础任务,广泛应用于图像分析和智能监控等领域。不同于单标签分类,多标签分类需要同时考虑样本可能属于多个类别,从而为每个样本预测一个或多个相关类别标签。这种方法能够提供更丰富的信息,特别适用于复杂场景。
在许多应用中,尤其是在需要识别单张图像中多个物体类别的任务中,目标检测算法常被优先选择,因为它不仅识别物体类别,还提供物体的位置信息。然而,在某些任务中,如图像标签推荐、缺陷检测或内容过滤,位置信息并非关键。这时,多标签分类算法更为合适,并且具有以下显著优势:
计算复杂度低,推理速度快:多标签分类无需进行复杂的边界框回归和非极大值抑制等步骤,对图像分辨率要求较低,因此计算复杂度大大降低,推理速度更快,适合实时应用。
数据标注成本低:只需为每张图像标注存在的类别,无需精确标注每个物体的边界框,降低了标注的复杂性和成本。
鲁棒性高:由于不关注具体位置信息,多标签分类在面对图像噪声或遮挡时表现更为鲁棒。
模型简单:多标签分类模型通常结构简单,易于训练和部署。
此外,在一些内容分析任务中,多标签分类也发挥着重要作用。例如,在行人属性识别等任务中,需要同时识别同一行人的多个属性,此时,单标签分类和目标检测算法无法满足需求,而多标签分类则能够有效解决问题。
02
算法解读
高精度模型:代表模型为 PP-HGNetV2-B6_ML,基于飞桨自研高精度骨干网络模型 PP-HGNetV2-B6训练得到,其在精度上达到了91.06 mAP 的最高表现,尤其适合需要高精度的任务场景。
精度和效率均衡模型:代表模型为 PP-HGNetV2-B4_ML,基于飞桨自研精度-效率均衡的骨干网络模型 PP-HGNetV2-B4训练得到,适合精度效率兼顾要求的任务。
高效率模型:代表模型为 PP-LCNet_x1_0_ML,基于飞桨自研高效率骨干网络模型 PP-LCNet_x1_0训练得到,以提升推理速度和降低模型大小为目标,适合于资源受限的环境和实时应用场景。
多标签分类模型结构
所有这些模型都采用了性能更高且更高效的 ML-Decoder 分类头,以进一步提升整体性能。各个模型的性能指标如下:
注:以上精度指标为 COCO2017的多标签分类任务mAP。所有模型 GPU 推理耗时基于 NVIDIA Tesla V100-SXM2-32GB 机器,精度类型为 FP32, CPU 推理速度基于 Intel(R) Xeon(R) Gold 6271C CPU @ 2.60GHz,精度类型为 FP32。
03
使用方法
下面就从零开始,基于 PaddleX 体验多标签分类产线:
▎安装
根据设备选择安装 PaddlePaddle
▎快速体验
PaddleX 提供了简单易用的 Python API,只需几行代码即可体验端到端预测效果,可以下载测试图片,方便大家快速体验效果:
首先使用产线名称调用 create_pipeline方法实例化产线对象;
然后使用 predict方法进行预测,对于预测结果支持 print方法进行打印,save_to_img方法进行可视化并保存为图片以及 save_to_json方法保存预测的结构化输出。
多标签分类官方权重可视化结果
▎二次开发
如果对产线的预训练模型效果满意,可以直接对产线进行高性能推理/服务化部署/端侧部署,如果不满意,您也可以使用 PaddleX 进行便捷高效的二次开发,使用自己场景的数据对模型微调训练获得更优的精度。
基于 PaddleX 便捷的二次开发能力,使用统一命令即可完成数据校验、模型训练与评估推理,无需了解深度学习的底层原理,按要求准备好场景数据,简单运行命令即可完成模型迭代,此处展示多标签分类模型二次开发流程:
上述命令中,首先指定所用模型的配置文件(此处为 PP-LCNet_x1_0_ML.yaml),然后选择模式为模型训练:-o Global.mode=train,再指定数据集路径:-o Global.dataset_dir 即可。
更多参数也可以继续在命令中追加参数设置:如指定前2卡 GPU 训练:-o Global.device=gpu:0,1;设置训练轮次数为10:-o Train.epochs_iters=10。此外,相关参数均可通过修改.yaml 配置文件中的 Global 和 Train 的具体字段来进行设置。
其余更详细的使用方法及产线部署、自定义数据集相关的内容,请参考 PaddleX 官方教程文档:
■ 多标签分类产线使用教程
■ 多标签分类模块使用教程
04
产业范例
北京德厚泉科技有限公司基于 PaddleX 多标签分类模型搭建了一套高效准确的道路地面缺陷检测系统。该系统能够自动识别和定位道路图像中的各种缺陷,如裂缝、坑洼和破损,并生成详细的检测报告。在这一应用场景中,基于多标签分类的模型相比传统的目标检测模型展现出更高的性价比。
目前,该系统的误检率小于5%,召回率大于85%,已经成功安装在多个城市的出租车上,通过极低的算力完成路面情况的实时分析,从而减少人工成本、提高检测效率,并有助于及早发现道路问题,及时采取维修措施,进而提升道路的安全性和舒适度。
05
精彩课程预告
为了帮助您迅速且深入地了解图像多标签分类全流程解决方案,北京德厚泉科技与百度研发工程师将于 12月5日(周四)19:00 为您深度解析本次技术升级。此外,我们还将开设针对图像多标签分类产线的产业场景实战营,手把手带您体验从数据准备、数据校验、模型训练、性能优化到模型部署的完整开发流程。机会难得,立即扫描下方二维码预约吧!
来源:爱你到无法自拔