摘要:随着生成式AI在图像创建领域的快速发展,AI生成全景图像因其在虚拟现实和增强现实应用中的潜力而备受关注。然而,这类图像存在的独特质量问题,如几何扭曲、语义不合理性以及文本-图像对应性差,严重影响了沉浸式用户体验。当前,缺乏专门用于系统评估和优化AI生成全景图像
AIGODIS的多维度质量度量、局部失真区域的精准定位,以及基于反馈的自动化图像优化
(映维网Nweon 2025年11月17日)随着生成式AI在图像创建领域的快速发展,AI生成全景图像因其在虚拟现实和增强现实应用中的潜力而备受关注。然而,这类图像存在的独特质量问题,如几何扭曲、语义不合理性以及文本-图像对应性差,严重影响了沉浸式用户体验。当前,缺乏专门用于系统评估和优化AI生成全景图像(AIGODIS)质量的数据集和计算方法。
为解决这一问题,海交通大学,天津大学,华东师范大学,法国南特大学团队构建了首个综合性人类反馈数据库OHF2024,并基于此提出了两个新型计算模型:BLIP2OIQA(用于图像质量评估)和BLIP2OISal(用于失真感知显著性预测)。这项研究首次实现了对AIGODIS的多维度质量度量、局部失真区域的精准定位,以及基于反馈的自动化图像优化。
研究团队系统地构建了OHF2024数据库,其流程如下:
数据生成:研究从50个涵盖室内外场景的文本提示词出发,采用了五种代表性的生成模型(MVDiffusion, Text2Light, DALLE, omni-inpainting, 及一个微调的Stable Diffusion模型)进行图像生成,最终获得600张AIGODIS,确保了数据源的多样性。主观实验设计:在严格控制的实验环境下,20名具有正常或矫正视力的受试者使用HTC VIVE Pro Eye头戴式显示器,对每张图像从三个预定义的维度进行评分:质量:评估颜色、光照、清晰度等低层视觉属性。舒适度:评估由图像失真、结构变形等引起的视觉不适感,该维度对VR/AR应用至关重要。对应性:评估生成图像与输入文本提示词的语义一致性。失真感知标注:除了评分,受试者还通过手柄点击提供了图像中严重失真区域的坐标数据。这些数据经处理后生成了600张连续的失真感知显著图,为模型训练提供了像素级的监督信号。数据处理与统计分析:主观评分遵循ITU-R BT.500标准进行异常值剔除和Z-score归一化,最终计算得到每个图像的三个平均意见得分(MOS)。统计分析表明,三个评估维度间的斯皮尔曼秩相关系数仅为中等或弱相关(0.4-0.61),证实了多维度评估框架的必要性。BLIP2OIQA模型旨在精确预测人类在三个维度上的视觉体验分数。其技术架构包含以下核心组件:
视口分割与特征提取:模型首先将输入的等距柱状投影全景图渲染为六个视口图像(上、下、前、后、左、右,FOV=110°)。每个视口图像与文本提示词一同输入一个基于BLIP-2构建的共享编码器。该编码器利用其Q-Former模块,通过交叉注意力机制,生成每个视口的文本-图像融合特征。注意力特征聚合模块:该模块模拟人类浏览全景图时的认知过程。首先,自注意力层捕捉每个视口内部的质量信息。随后,三个独立的交叉注意力层(权重不共享)分别处理视口间特征,专门用于提取与“质量”、“舒适度”和“对应性”相关的全局一致性信息。例如,舒适度交叉注意力层会重点关注视口间的几何连贯性和风格一致性。分数回归:聚合后的三个视角感知特征向量,分别通过三个独立的多层感知机(MLP)回归头,映射为最终的维度分数。训练中使用L1损失函数直接优化预测分数与MOS之间的差异。BLIP2OISal模型的任务是输出一张与输入全景图分辨率相同的显著图,高亮显示存在严重失真的视觉显著区域。与BLIP2OIQA不同,该模型将整张全景图(不进行视口分割)与文本提示词输入共享编码器,以获得全局的文本-图像融合特征,并保留编码过程中产生的多层图像特征以提供空间细节。
团队进行了广泛的实验以验证模型性能。对于IQA性能,在OHF2024测试集上,BLIP2OIQA在质量、舒适度、对应性三个维度的评估中,其斯皮尔曼秩相关系数(SRCC)和皮尔逊线性相关系数(PLCC)均显著优于包括MANIQA、HyperIQA等在内的21种先进无参考IQA模型。交叉生成模型测试进一步证明了其良好的泛化能力。
对于显著性预测性能,BLIP2OISal在失真感知任务上,在CC、NSS、KLD等多个关键指标上全面超越了20种传统及深度学习显著性预测模型,表明其能更有效地定位与失真相关的视觉注意力区域。
另外,消融研究显示,通过系统性移除模型组件(如视口分割、注意力模块、特征融合模块等)的实验,证实了所提出架构中每个核心组件的有效性,尤其是交叉注意力机制和文本-图像特征融合对性能提升贡献显著。
同时,研究团队演示了一个完整的自动化优化闭环。所述流程首先利用BLIP2OIQA筛选出低质量图像,随后使用BLIP2OISal预测其失真区域并生成二值掩码。将该掩码与原始图像输入至MVDiffusion的修复模块中,对指定区域进行内容重生成。定量与定性结果均显示,优化后的图像在BLIP2OIQA预测分数和后续人工评分上均有显著提升,验证了该优化流程的有效性。
相关论文:Quality Assessment and Distortion-aware Saliency Prediction for AI-Generated Omnidirectional Images
这项研究通过构建高质量的OHF2024数据库和提出性能卓越的BLIP2系列模型,为解决AI生成全景图像的质量评估与优化问题提供了首个端到端的解决方案。它不仅推动了沉浸式媒体内容质量评估领域的研究进展,同时为AIGC在VR/AR产业中的实际应用提供了关键的工具和方法。
来源:映维Nweon