探索视觉语言基础模型在低分辨率下的零样本分类能力和鲁棒性

B站影视 2025-02-08 06:00 3

摘要:这篇论文介绍了视觉语言基础模型(FMs)在低分辨率图像上的表现,并提出了一个综合基准测试LR0.FM来评估不同模型的表现。作者使用了新的指标“加权聚合鲁棒性”来更好地评价模型性能。实验结果表明,模型大小与对分辨率下降的鲁棒性呈正相关关系,预训练数据集的质量比其

这篇论文介绍了视觉语言基础模型(FMs)在低分辨率图像上的表现,并提出了一个综合基准测试LR0.FM来评估不同模型的表现。作者使用了新的指标“加权聚合鲁棒性”来更好地评价模型性能。实验结果表明,模型大小与对分辨率下降的鲁棒性呈正相关关系,预训练数据集的质量比其大小更重要,而且经过微调和更高分辨率的模型对低分辨率图像的鲁棒性较差。此外,作者还发现,在低分辨率下,模型能够做出语义上合理的预测,但缺乏细节信息会严重影响模型的初始层而不是更深的层。基于这些发现,作者提出了一个简单的策略LR-TK0来增强模型的鲁棒性,同时不损失其预训练权重。最后,作者证明了LR-TK0在多个数据集上的有效性以及其在不同骨干网络和其他方法上的泛化能力。

本文提出的LR-TK0方法旨在增强模型在低分辨率下的鲁棒性和可解释性。该方法通过添加可训练的低分辨率(LR)令牌来弥补低分辨率图像中丢失的细节信息,并使用自监督学习技术对这些令牌进行训练。具体来说,将LR令牌添加到预训练模型中的每个Transformer块之前,以便在HR和LR域之间建立桥梁。此外,为了确保模型不会暴露于任何目标数据集,作者采用了任务无关的多尺度训练策略,并使用扩散模型生成合成高分辨率(HR)图像作为训练数据。

与传统的prompt学习不同,本文的方法是将LR令牌直接合并而不是附加到空间令牌上。这种方法有助于提高模型的可解释性,并且不需要预先定义任务相关的令牌。此外,使用合成HR图像作为训练数据可以避免过拟合,并且能够捕捉更广泛的领域,从而实现零样本评估。

本文的方法解决了预训练模型在低分辨率下缺乏细节信息的问题,并提高了模型的鲁棒性和可解释性。同时,通过使用合成HR图像作为训练数据,避免了模型过拟合,并实现了零样本评估。这些改进可以帮助模型更好地适应不同的应用场景,提高其性能和可靠性。

本文主要介绍了使用低分辨率图像增强技术(LR-TK0)对视觉问答模型的性能提升,并进行了多个对比实验来验证该方法的有效性。

首先,作者将LR-TK0应用于不同的零样本学习技术中,包括视觉提示调优和RobustSAM等,结果表明该方法在低分辨率下具有更好的鲁棒性和泛化能力。

其次,作者进行了多组实验来比较LR-TK0与其他超分辨率方法的效果。结果显示,相比于其他超分辨率方法,LR-TK0更适合于零样本学习场景,并且在低分辨率下的效果更好。

此外,作者还进行了多个ABlation实验来探究LR-TK0的设计选择对其性能的影响。例如,作者发现不冻结预训练权重会导致性能下降,而多尺度训练可以进一步提高模型的性能。

最后,作者还研究了LR-TK0对不同EVA backbone和LR token位置的影响,并通过Grad-CAM分析了模型的注意力分布。结果表明,引入更多的LR token和更早的位置可以更好地帮助模型学习低分辨率下的特征表示。

总的来说,本文提出的LR-TK0方法在低分辨率下的表现优于其他超分辨率方法,并且在多个实验中都取得了显著的性能提升。

提出了LR0.FM基准测试,全面评估了视觉语言基础模型在低分辨率图像分类任务中的表现。分析了模型大小、预训练数据集质量以及细调对低分辨率性能的影响,并提出了简单而有效的解决方案:LR-TK0。引入了加权聚合鲁棒性(Weighted Aggregated Robustness)指标,提供了更平衡的评估方式,克服了现有指标的局限性。

来源:宁教授网络空间元宇宙

相关推荐