摘要:相机将现实世界的场景数字化为像素强度值,其值范围由可用的每像素位数(bpp)给出。高动态范围(HDR)相机通过增加bpp的数量以更高的分辨率捕捉这些亮度值。然而,大多数显示器都限制在8bpp。Na¨ıve HDR压缩方法会导致丢失这些HDR图像中包含的丰富信息
论文题目
Joint tone mapping and denoising of thermal infrared images
via multi-scale Retinex and multi-task learning
1、简介
相机将现实世界的场景数字化为像素强度值,其值范围由可用的每像素位数(bpp)给出。高动态范围(HDR)相机通过增加bpp的数量以更高的分辨率捕捉这些亮度值。然而,大多数显示器都限制在8bpp。Na¨ıve HDR压缩方法会导致丢失这些HDR图像中包含的丰富信息。本文研究了16bpp热红外图像的色调映射算法,以保留这些信息。采用优化的多尺度Retinex算法设置基线。然后使用基于流行的U-Net架构的深度学习方法对该算法进行近似。通过使用自监督深度学习方法隐式地减少色调映射后图像中的剩余噪声,该方法可以在多任务学习方案中与色调映射方法联合训练。在色调映射的背景下,进一步讨论了热红外视频增强的去噪和闪烁。在公开的FLIR ADAS数据集上进行的大量实验证明了提出的方法与最先进的方法相比是有效的。
现实世界中的场景可以呈现出广泛的亮度值,远远大于任何摄影传感器所能捕捉到的亮度值。相机数字化像像素强度值这样的场景,其数值范围由可用的每像素比特(bpp)给出。高动态范围(HDR)相机能够通过增加bpp的数量以更高的分辨率捕获这些亮度值。这允许对这些值进行更精细的离散化,从而获得更高层次的细节。这在热红外(TIR)成像中尤其重要,因为只有一个强度通道可用,因此需要大量的bpp来最大化对比度。然而,在标准显示器上显示这些内容有其自身的挑战,因为大多数显示器的分辨率仅为8bpp。图1显示了一些示例图像。Na¨ıve HDR压缩方法,如线性降尺度,会导致丢失这些HDR图像中包含的丰富信息。即使是流行的图像对比度增强方法,如对比度有限自适应直方图均衡化(CLAHE)也不能提供令人满意的结果。色调映射算子(TMO)旨在保留丰富的信息,同时产生视觉上吸引人的图像或视频。本文研究了这种TMOs对16bpp的TIR图像和视频的压缩,目前很少有方法可以专门处理TIR光谱中的音调映射,最初用于对比度增强的多尺度Retinex (MSR)算法被实现并优化为用于此目的的参考(见图1)。随后,该优化的MSR算法在完全监督的训练方案中使用基于流行的U-Net架构的深度学习方法进行近似或模拟。这种模拟方法不仅可以节省处理时间,因为它是近似的,而且还将使用它来有效地注入自监督去噪,用于色调映射和图像增强的联合学习。色调映射的过程通常会将噪声放大到某种程度,使其再次可见。因此,无论是在色调映射过程中的降噪,还是之后的主动去噪,都是产生高质量图像的重要因素。建议通过使用可与色调映射方法联合训练的自监督深度学习方法来隐式地减少图像中的剩余噪声。执行联合去噪和色调映射并不是全新的,但本文的方法是为TIR图像设计的,使用了最新的深度学习方法,并且由于自监督去噪而不需要完全监督。在公开的FLIR ADAS数据集上进行的大量实验提供了与最新技术的全面比较,并证明了提出的方法的有效性。
贡献可以概括为:
(1)优化MSR算法,为TIR图像和视频生成参考TMO;
(2)在监督训练方案中使用基于深度学习的U-Net神经网络架构近似该参考TMO;
(3)在UNet架构中注入自监督去噪,用于联合多任务学习调光和去噪;
(4)深入讨论自监督去噪和去闪烁。对每个部分进行了详细的分析,并在公开的FLIR ADAS Dataset上进行了全面的实验和结果。
2、相关工作
1)TIR光谱中的色调映射:因为TIR图像通常只有一个强度通道,由于图像的亮度通道通常受到色调映射,因此可以从VIS光谱中采用方法。Realtime TMO16是一种基于传统计算机视觉的色调映射算法。在不同tmos的对比调查中,它在整体图像质量方面仍然是最先进的TMO。将其用于TIR图像的色调映射,取得了良好的效果,证明了其适合于该任务。
2)基于深度学习的色调映射:传统的计算机视觉方法仍然流行于VIS图像和视频的色调映射。然而,近年来,越来越多的人尝试用基于深度学习的方法来完成这一任务。主要优势通常体现在效率增益上,理论上可以通过深度卷积神经网络(DCNNs)近似这些传统的tmo来实现。
3)自监督去噪:目前最先进的去噪方法是基于深度学习的,并且通常优于基于传统计算机视觉的去噪方法。大多数基于学习的去噪算法使用具有干净数据的监督学习作为Ground Truth (GT)。训练数据由无噪声的、通常是合成的、被人工噪声破坏的图像组成。机器学习(ML)模型以噪声图像为输入,以相应的干净图像为目标。然而,在现实中,噪声特征通常与人工噪声模型不同,并且合成图像与真实图像之间存在域间隙。近年来,自监督图像去噪方法越来越受欢迎。Noise2Noise是该领域最重要的出版物之一。该方法基于噪声在图像中随机分布的假设,并且在同一场景的连续帧之间变化。然后,随着时间的推移,无限数量图像的噪声平均为零。他们不是在干净的图像上训练,而是在同一场景的对齐的、连续的噪声图像对上训练。
4)去闪烁:当在单张图像上训练DCNN然后将其应用于视频数据时,闪烁可能是一个问题。在假设场景中没有剧烈的光线变化的情况下,连续的图像应该具有大致相似的强度值。
5)多任务学习:多任务学习的核心思想是存在计算机视觉任务,这些任务足够相似,可以共同学习。通过这种方式,每个单独的任务可以进一步提高其性能,因为例如Mask R-CNN40中基于深度学习的特征提取受益于对象检测和实例分割的联合学习。联合学习图像增强任务,如超分辨率、弱光增强、去雾、去噪或色调映射显然是有前途的。本文研究了用于红外图像和视频增强的色调映射、去噪和去闪烁的联合学习。
3、方法
1)使用深度学习进行色调映射的动机是,可以有效地将进一步的方法注入到执行图像增强(如去噪)的训练算法中。因此首先需要训练一个深度神经网络来近似或模拟相关的传统的基于计算机视觉的TMO。在两个单独的实验中模拟了优化后的MSR和FLIR TMO。因此,优化后的MSR算法和FLIR TMO的8位输出图像作为训练时的GT。因此使用DCNNs进行色调映射的基本监督学习方法是直接的。首先,将一组HDR图像与首选TMO进行色调映射,该TMO可作为训练过程的参考图像或目标。DCNN的输入层是640×512像素,这是FLIR ADAS数据集的原始分辨率。然后将相同的HDR图像通过DCNN传播以形成输出。将该输出与各自的参考图像进行比较,并通过损失函数计算两个图像之间的误差或差异,并通过反向传播用于训练DCNN,使用均方误差(MSE)损失。
考虑了两种不同的DCNN架构:U-Net7和CAN。U-Net架构于2015年首次提出,用于医学图像分割。实现之间的主要区别在于输入和输出层,它们被修改为灰度图像的色调映射任务。除此之外,还添加了批规范化层和后来的组规范化层,以提高整体性能。模型宽度(第一层中特征映射的数量)和深度(连续层的数量)通过自动超参数调优来逼近优化的MSR TMO。CAN架构最初是为语义分割而开发,在开始时使用批处理规范化,后来切换到组规范化,这完全消除了在批处理规范化中可见的填充伪影。模型深度(连续层的数量)和模型宽度(每层的特征映射的数量)通过自动超参数调优来逼近优化的MSR TMO。当宽度为24,深度为7时,可以获得最佳效果。
目标是模拟优化的MSR算法和FLIR TMO,使用优化的MSR的8位输出图像和来自FLIR ADAS数据集的原始8位图像。经过较长时间的训练,模型没有显示出显著的改进,与批处理规范化相比,使用组规范化导致了两种体系结构的一致改进。在定性结果方面,如图6所示,CAN架构非常好地模拟了这两种原始方法,而U-Net则在FLIR数据集上挣扎,产生了更暗、更不鲜艳的输出图像。然而,U-Net在优化的MSR的大多数测量中表现略好于CAN,除了噪声可见性,如表3所示。总体而言,两种方法都适用于近似优化后的MSR, CAN在FLIR ADAS数据集上表现更好,而U-Net在优化后的MSR TMO上表现稍好。由于U-Net也广泛用于去噪,因此本文的其余部分选择U-Net作为DCNN架构。
2)自监督去噪,考虑到目前的结果,可以发现进一步的优化潜力在于降低由Retinex算法放大的图像噪声。主要目标是寻找一种降噪方法,在保留图像细节的同时尽可能降低色调映射图像的噪声。该方法也应该兼容并易于注入到基于深度学习的色调映射方法中,为此,研究了自监督去噪方法,Noisier2Noise和noise - as - clean。
Noisier2Noise去噪方法noise - as - clean去噪方法都使用输入图像的数据增强与深度学习相结合来对输入图像进行去噪。其核心思想是在已有噪声的真实训练图像上加入人工生成的合成噪声,从而学习隐式去噪。然而,在Noisier2Noise方法中,将合成噪声添加到输入图像中用于训练和推理,而noise - as - clean方法使用添加的噪声只适用于训练阶段,这两种方法都是在单个图像基础上工作的。因此,它们非常适合低帧率FLIR ADAS数据集,U-Net体系结构被用作这两种方法的网络体系结构。对于输入训练图像的增强,使用lambda值为100的加性泊松噪声,因为预计这将最接近FLIR数据上存在的真实噪声。
结果如图8所示。Noisier2Noise方法在整个图像中产生不一致的结果,虽然有些区域(如右中的栏杆)显示出低水平的噪音,但其他区域(如天空)仍然嘈杂。此外,这种方法还会丢失某些图像细节。这可以在图像左上方的建筑中观察到,那里的树木细节完全被洗掉了。这种方法也降低了全局亮度和对比度。与noiser2noise相比,noise - as - clean方法在去噪方面取得了一致的改进,同时还保持了图像的清晰度。在保留图像对比度的同时,还保留了图像的整体细节。总的来说,noise - as - clean方法被认为是这项工作最有前途的方法,因此需要进一步研究。定量结果如表4所示。
3)联合色调映射与去噪,由于选择的自监督去噪方法只在训练过程中对输入图像进行增强,因此可以很容易地将其注入学习TMO近似的训练过程中。为此,U-Net架构与声调映射的监督训练以相同的配置和方式使用。唯一的区别是,在训练过程中,输入的HDR图像被lambda值为100的加性泊松噪声破坏。声调映射和自监督去噪联合监督学习的结果如图9所示。还添加了一个图像示例,其中在学习近似TMO后,单独训练相同的去噪方法作为后处理步骤。可以看出,在联合学习过程中,去噪性能甚至有所提高,这可以从表4的图像测量中得到证实,整体外观和对比度更接近原始图像。这表明,将该方法与色调映射任务一起训练可以丰富去噪性能,同时不会对色调映射产生负面影响。在单个网络中同时训练和执行这两个任务还可以带来性能优势并降低复杂性。
4)去闪烁,基于深度学习的优化MSR TMO近似再次引入了闪烁,当与去噪相结合时,闪烁甚至进一步增加,因为学习方法在训练期间只考虑单个图像。在深度学习中加强连续视频帧时间一致性的一种流行方法是使用密集光流。由于帧对帧去噪方法的实验已经表明,计算密集光流对FLIR ADAS数据集产生不精确的结果,因此本文不再进一步研究基于光流计算的方法。相反,采用了一种非常简单的方法,引入了一个时间正则化损失项来惩罚连续视频帧之间平均图像强度的变化。通过这种方式,可以强制执行时间一致性。时间正则化损失项Lreg计算为:
将当前输出图像的平均图像强度值¯xt与前n张输出图像的平均值¯xt−k的均匀加权和进行比较。当前平均强度值与过去值之间的较大偏差会导致较高的损失,因此在训练期间会受到惩罚。在实验中设置n = 10。然后将总损失Ltotal计算为标准MSE损失项LMSE与时间正则化损失项的加权和:
4、实验
表5给出了本文分析的主要方法的定量评价。相关的定性比较如图10所示。除了最先进的方法FLIR、实时TMO、CGF和基线MSR之外,还包括优化MSR,以及基于色调映射、去噪和闪烁联合训练的最终深度学习方法。MSR的优化导致TMQI、图像对比度和视频流的时间相干性的显著改善,但也增加了噪声可见性。这些结果也可以通过图像和视频流的定性比较来证实。通过DCNN对优化后的MSR进行近似,在表5中称为习得MSR。正如在TMQI中看到的那样,它能够模拟优化后的MSR的图像外观。在训练过程中注入去噪和闪烁,共同学习色调映射和图像增强后,噪声可见性和全局时间不相干度量都清楚地表明图像和视频质量得到了改善。因此可以得出结论,与优化后的MSR相比,这两种优化可以很好地协同工作,并显著改善TMQI、噪声可见性和时间相干性。联合DCNN方法的对比度变差,但不能通过定性比较来证实,可能是由于噪声的减少引起的。
来源:地球村新讯