探索视觉语言模型,提高点云质量评估的主观一致性

B站影视 2025-01-21 14:00 2

摘要:近年来,无参考点云质量评估(NR-PCQA)研究取得了显著进展。然而,现有的方法大多寻求直接将视觉数据映射到平均意见分数(MOS),这与实际主观评价机制相矛盾。为了解决这个问题,研究人员提出了一个基于语言驱动的PCQA新方法——CLIP-PCQA。该方法采用检

近年来,无参考点云质量评估(NR-PCQA)研究取得了显著进展。然而,现有的方法大多寻求直接将视觉数据映射到平均意见分数(MOS),这与实际主观评价机制相矛盾。为了解决这个问题,研究人员提出了一个基于语言驱动的PCQA新方法——CLIP-PCQA。该方法采用检索式映射策略,模拟人类使用离散的质量描述(如“优秀”和“差”)而不是具体分数来描述视觉质量的过程。基于CLIP哲学,该方法计算视觉特征和多个文本特征之间的余弦相似度,其中引入了有效的对比损失和可学习提示以增强特征提取。同时,考虑到主观实验中的个人限制和偏见,该方法进一步将特征相似性转换为概率,并考虑意见分布(OSD)而不是单个MOS作为最终目标。实验结果表明,CLIP-PCQA优于其他现有最佳方法。

该研究旨在开发一种基于语言驱动的点云质量评估(PCQA)方法,以模拟主观评价机制。该方法包括两个主要部分:多模态特征提取和视觉语言对齐。首先,使用预训练的CLIP模型将3D点云投影为多个视角的颜色和深度图像,并通过两个独立更新的ViT网络分别提取颜色和深度图像的视觉特征。然后,使用对比学习损失函数来增强特征提取,并引入可学习的提示来提高文本编码器的性能。最后,通过计算颜色和深度图像之间的相似度,将其转换为概率分布,从而实现视觉语言对齐。

该方法与传统的零样本预测方法不同,因为它在训练过程中使用了自适应的特征提取策略。具体来说,它不仅考虑了颜色和深度图像的视觉特征,还使用了可学习的提示来提高文本编码器的性能。此外,它还采用了对比学习损失函数来增强特征提取,并通过视觉语言对齐来更好地区分不同的样本和视角。

该方法解决了传统PCQA方法中存在的问题,即不能准确地反映人类主观评价过程中的不确定性。通过模仿人类主观评价的过程,该方法能够更准确地估计点云的质量,并且可以用于实际应用中。

本文主要介绍了CLIP-PCQA模型在点云图像质量预测任务中的表现,并进行了多组对比实验以验证其有效性。具体来说,本文使用了三个基准数据库(SJTU-PCQA、LS-PCQA和BASICS),并采用了三种常用的评价指标(PLCC、SRCC和RMSE)来衡量模型的性能。实验结果表明,CLIP-PCQA模型在三个数据库上的表现均优于其他13种SOTA方法,且具有较好的泛化能力。此外,文章还通过可视化实验进一步验证了模型的有效性,并进行了多个方面的ABlation实验,包括输入模态、提示设计和损失函数等,得出了相应结论。总之,本文对该领域的研究提供了有价值的参考。

来源:有趣的科技君

相关推荐