摘要:大量由扩散模型生成的合成视频给信息安全和真实性带来威胁,致使对生成内容检测的需求日益增长。然而,现有的视频级检测算法主要着眼于检测面部造假,常常难以识别各种语义的扩散生成内容。为推动视频取证领域的进步,我们提出了一种创新算法——多模态检测(MM-Det),用于
《On Learning Multi-Modal Forgery Representation for Diffusion Generated Video Detection》
地址:https://arxiv.org/pdf/2410.23623
大量由扩散模型生成的合成视频给信息安全和真实性带来威胁,致使对生成内容检测的需求日益增长。然而,现有的视频级检测算法主要着眼于检测面部造假,常常难以识别各种语义的扩散生成内容。为推动视频取证领域的进步,我们提出了一种创新算法——多模态检测(MM-Det),用于检测扩散生成的视频。MM-Det 借助大型多模态模型(LMMs)的深度感知和综合能力,从 LMM 的多模态空间生成多模态伪造表示(MMFR),提升检测未曾见过的伪造内容的能力。另外,MM-Det 运用帧内和帧间注意力(IAFA)机制在时空域进行特征增强。动态融合策略有助于优化伪造表示以实现融合。而且,我们构建了一个涵盖广泛伪造视频的综合性扩散视频数据集,名为扩散视频取证(DVF)。MM-Det 在 DVF 中展现出了最先进的性能,证明了我们算法的有效性。
这篇论文提出了一个名为Multi-Modal Detection (MM-Det)的创新算法来检测扩散生成的视频。具体来说,
多模态伪造表示(MMFR): 利用大型多模态模型(LMMs)从多模态空间生成多模态伪造表示(MMFR),增强检测未见伪造内容的能力。帧内和跨帧注意力机制(IAFA): 在时空域中进行特征增强,通过动态融合策略细化伪造表示。扩散视频取证(DVF)数据集: 构建了一个包含多种伪造类型和高质量生成内容的扩散视频数据集,作为真实世界场景中的基准。数据收集: 数据集DVF包含来自8种扩散生成方法的视频,包括7种文本到视频方法和1种图像到视频方法。真实视频来自YouTube和Internvid-10M。实验设置: 训练集包含1000个YouTube视频和1800个由Stable Video Diffusion生成的假视频,其中80%用于训练,20%用于验证。测试样本来自Internvid-10M和6种生成方法的假视频。对比方法: 选择了10种最近的检测方法作为基线,包括基于预训练CLIP特征的Raising和Universal FD,以及基于时空信息的ViViT、TALL和TS2-Net等。检测性能: MM-Det在DVF数据集上取得了最先进的检测性能,超过了第二好的方法HiFi-Net,AUC得分提高了6.7%。具体来说,MM-Det在大多数数据集上的表现优于其他方法,尤其是在频率基础和CLIP基础的方法上。消融实验: 通过消融实验验证了各个模块的有效性。结果表明,引入重建过程可以提高检测性能,IAFA机制可以增强帧内和跨帧信息的学习,MMFR在区分真实和伪造视频方面表现出色。鲁棒性分析: 在常见的后处理操作(如高斯模糊、JPEG压缩、缩放和旋转)下,MM-Det的性能下降幅度在2.5%到6.5%之间,所有性能均高于89%,表明该方法在这些操作下的有效性。这篇论文提出了一种名为MM-Det的视频级检测算法,利用LMMs的多模态表示和IAFA机制有效检测扩散生成的视频。实验结果表明,MM-Det在DVF数据集上取得了最先进的检测性能,并且在不同后处理操作下表现出较强的鲁棒性。该研究为未来的多媒体取证研究提供了新的思路和方法。
来源:宁教授网络空间元宇宙