摘要:随着现代生活逐步智能化,越来越多的应用需要从图像中推断相应的语义信息再进行后续的处理,如虚拟现实、自动驾驶和视频监控等应用。目前的语义分割模型利用大量标注数据进行有监督训练能达到理想的性能,但模型对与训练数据不同分布的数据进行推理时,其性能严重下降。这意味着一
摘要:随着现代生活逐步智能化,越来越多的应用需要从图像中推断相应的语义信息再进行后续的处理,如虚拟现实、自动驾驶和视频监控等应用。目前的语义分割模型利用大量标注数据进行有监督训练能达到理想的性能,但模型对与训练数据不同分布的数据进行推理时,其性能严重下降。这意味着一旦应用场景发生变化,就需对新场景的数据进行标注。模型重新利用新数据进行训练,才能达到正常的性能。这无疑是耗时的、代价昂贵的。为此,领域自适应语义分割算法提供了解决模型在分布不一致数据上语义分割性能下降问题的思路。总结了领域自适应语义分割算法的前沿进展,并对未来研究方向进行展望。
0 引言
语义分割是计算机视觉的基础任务之一,它为图像的每个像素进行类别预测,目的是将图像分割成若干个带有语义的感兴趣区域,以便后续的图像理解和分析工作,推动了自动驾驶、虚拟现实、医学影像分析和卫星成像等领域的发展。近几年来,语义分割模型的性能有着巨大的提升。然而,模型的性能依赖于大量人工标注的训练数据,这些数据的标注是十分耗时且代价昂贵的,纯人工标注一张图的时间甚至可能超过一个小时。即使现在使用半自动化标注工具自动生成一部分标注,可以减少标注的时间,但仍然需要人工去调整和检查自动生成的标注。语义分割模型需要在与训练数据分布一致的数据上才能获得优异的性能,而为另一不同分布的数据进行语义标注的代价很大。
为了低代价获得语义分割的标注,研究者将注意力集中到合成数据上,尝试使用合成数据来提升分割模型在真实数据上的性能。随着计算机图形学领域的发展,研究者利用游戏引擎技术可以轻易地生成大量带标注的合成数据集来训练分割模型。常见的合成数据集有GTA5[1]和SYNTHIA[2],它们含有多样化的城市街道驾驶场景,模拟多种天气、季节、光照和建筑风格的变化来接近真实场景的分布。虽然合成数据有着很强的真实感,但是合成数据和真实数据(如Citescapes[3]数据集)之间仍存在低级纹理差异。分割模型在合成数据上进行训练,其在真实数据上性能仍有较大的提升空间。对此,无监督领域自适应语义分割算法被提出,以减少已有标注的合成数据(源域)和无标注的真实数据(目标域)之间的域间差异,提升模型在真实数据上的性能。
近年来,无监督领域自适应语义分割受到广泛关注。本文将详细地介绍目前最新的基于深度学习的领域自适应语义分割算法(分类如图1所示),并对未来的研究方向进行简要探讨。
图1 基于深度学习的领域自适应语义分割算法分类
1 无监督领域自适应语义分割概述
……
2 基于深度学习的领域自适应语义分割算法
……
3 实验对比
……
4 结论
……
作者单位:宁波大学信息科学与工程学院、浙江省移动网应用技术重点实验室
来源:电子技术应用