摘要:在当今AI迅猛发展的时代,自动生成的图像质量越来越高,这不仅带来了创新的可能性,也带来了潜在的风险。近日,来自西安交通大学、新加坡国立大学、西南财经大学和宁波工程学院的研究团队联合发表了一篇题为《通过词汇偏向为自回归图像模型添加水印:一种抵抗重生成攻击的方法》
一、背景:自回归图像生成面临的水印挑战
想象一下,如果你有一台神奇的复印机,它不仅能复制图像,还能根据你的描述创造全新的图像。这就是现代AI图像生成技术的魔力。虽然大家可能更熟悉扩散模型(如DALL-E、Stable Diffusion),但近年来,一种称为"自回归模型"(AR模型)的技术也取得了令人瞩目的成就,它们在图像生成质量上达到了最先进水平。
这些自回归模型就像是耐心的画家,一笔一笔地完成画作。技术上讲,它们通过依次预测图像"代币"(tokens)来生成图像,这些代币可以理解为图像的基本构建块。不过,这些模型创造出的栩栩如生的图像也带来了隐忧——它们可能被用于制作深度伪造内容或传播错误信息。
为了解决这个问题,研究人员一直致力于开发"水印"技术,就像古代纸币上的防伪标记一样,这些水印能够帮助我们识别和追踪AI生成的图像。然而,现有的水印技术主要是为扩散模型设计的,它们在扩散模型的中间状态(称为潜在状态)中嵌入水印。这种设计难以直接应用到自回归模型上,因为后者是通过顺序预测代币而非优化连续的潜在表示来生成图像的。
更严峻的挑战是,研究发现基于扩散的"重生成攻击"可以有效地通过扰动潜在状态来抹去这些水印。就像洗衣机可以冲掉衣服上的污渍一样,这些攻击可以"洗掉"图像中的水印信息。
因此,为自回归图像模型开发一种专门的、能够抵抗重生成攻击的水印技术变得尤为重要。这正是本研究所要解决的核心问题。
二、研究灵感:从语言模型水印技术获得启示
当研究团队面对这一挑战时,他们的灵感来源于一个有趣的观察:当自回归模型生成一张图像后,如果我们再次对这张图像进行编码,很大一部分原始的代币信息仍然可以被恢复。这就像是读出一首诗后,再让另一个人记录下来,虽然可能有些字词会变化,但整体内容依然能够保留。
这一发现让研究者意识到,如果他们能够在代币图谱(token map)中嵌入水印信息,那么即使图像经过处理,当它被重新量化为代币时,水印信息仍有可能被检测到。
另一个关键观察是,在代币图谱上进行控制范围内的微小扰动不会显著降低图像质量。这就像是稍微调整一幅画的某些笔触,虽然有细微变化,但整体效果仍然令人满意。
基于这些发现,研究团队受到了文本水印技术的启发,开发了一种名为"词汇偏向水印"(Lexical Bias Watermarking,简称LBW)的新方法。这种方法巧妙地在自回归预测过程中引入了控制偏向,使模型在生成图像时倾向于选择特定的代币。
三、LBW方法:巧妙地在代币选择中植入水印
LBW的核心思想非常巧妙,可以比作一场精心设计的游戏。想象一下,代币库(vocabulary)是一个装满各种彩色积木的大箱子。研究人员将这些积木分为两组:绿色列表(green list)和红色列表(red list)。在生成图像时,他们会有意识地"鼓励"模型多使用绿色列表中的积木。
具体来说,LBW通过两种主要方式实现这一目标:
首先是"硬偏向"(Hard Biasing)策略。这种方法相当直接,它会在模型预测下一个代币时,将红色列表中代币的概率值设为负无穷,强制模型只能从绿色列表中选择代币。这就像是在游戏中规定玩家只能使用特定颜色的积木一样。
然而,这种强制性的方法可能会导致图像质量下降,甚至在绿色列表过于受限时导致生成失败。就像如果限制画家只能使用几种颜色,可能会影响画作的表现力一样。
为了解决这个问题,研究者提出了更灵活的"软偏向"(Soft Biasing)策略。这种方法不是完全禁止使用红色列表中的代币,而是增加绿色列表中代币的概率值,使模型更倾向于选择它们,但在必要时仍可使用红色列表中的代币。这就像是鼓励玩家多用某些颜色的积木,但不强制禁止使用其他颜色。
具体来说,当模型预测下一个代币时,软偏向策略会给绿色列表中的代币添加一个偏置常数σ,使它们更有可能被选中。这样既能嵌入水印信息,又能保持图像的生成质量。
四、加强安全性:多绿色列表策略
为了增强对白盒攻击的抵抗能力,研究团队不满足于使用单一的绿色列表,而是引入了多绿色列表策略。
想象一下,如果每次生成图像都使用同一组绿色积木,那么攻击者可能会发现这一模式并破解水印。为了避免这种情况,研究者创建了多组绿色列表,每次生成图像时随机选择其中一组使用。
更巧妙的是,这些绿色列表被精心设计,使得每个代币在所有绿色列表中被选为"绿色"的概率是相等的。这就像是确保每种颜色的积木在整个游戏中被使用的频率大致相同,使得水印变得更难被检测和移除。
研究表明,当绿色列表的数量足够多时(如32个),水印图像的代币分布几乎与无水印图像无法区分,这使得水印更加隐蔽,难以通过统计分析被发现。
五、水印检测:利用统计学识别绿色代币偏向
那么,如何检测这种巧妙嵌入的水印呢?研究团队采用了一种基于Z分数假设检验的方法。
当我们拿到一张可能带有水印的图像时,首先将其量化为代币图谱。然后,针对每个绿色列表,计算图谱中绿色代币的比例。考虑到自回归生成图像的高代币一致性(如图1所示),如果观察到的绿色代币比例与预期比例有显著偏差,就可以认为存在水印。
这种检测方法的优点是轻量级,只需要VQ-VAE(一种将图像转换为代币的神经网络)而无需访问复杂的生成模型,使其适用于各种应用场景。
六、LBW的扩展:支持事后水印
除了在生成过程中嵌入水印,LBW还可以扩展为一种"事后水印"方法,用于现有图像。
具体来说,当我们有一张已存在的图像时,首先将其量化为代币图谱。然后,通过将红色代币替换为最接近的绿色代币来嵌入水印。这种替换基于代币嵌入空间中的欧氏距离,确保替换后的失真最小化。最后,使用修改后的代币图谱重建图像,有效地以事后方式嵌入水印。
这就像是在不改变画作整体风格的前提下,巧妙地调整一些细节,使其包含特定的标记。
七、实验结果:LBW展示出色的水印稳健性
研究团队在ImageNet数据集上进行了广泛的实验,测试了LBW在不同自回归模型(VQ-GAN、VAR和RAR)上的性能,并与现有最先进的水印方法进行了比较。
实验结果令人振奋。LBW在传统攻击(如高斯噪声、模糊、颜色抖动、几何变换和JPEG压缩)和重生成攻击(如VAE重建、DiffPure和CtrlRegen)下都展示出卓越的稳健性。
特别值得一提的是,LBW在抵抗重生成攻击方面表现尤为突出。例如,在RAR模型上应用LBW-Post时,即使面对CtrlRegen这种强大的攻击,它仍然能够达到0.995的AUC(曲线下面积)和0.937的TPR@1FPR(在1%假阳性率下的真阳性率),显著优于现有的WatermarkDM方法。
此外,LBW-Soft比LBW-Hard展现出更好的稳健性,尤其是在较低的绿色代币比例下。这证实了软偏向策略在平衡水印强度和图像质量方面的优势。
研究还发现,RAR模型上的LBW表现最为出色,这可能是因为RAR使用较小的代币库(1024个代币),使得水印信息更加集中和稳定。
八、不同参数对水印效果的影响
研究团队还分析了不同参数对水印效果的影响。例如,他们发现绿色代币比例γ越低,水印的稳健性通常越高,但图像质量可能会下降。特别是对于LBW-Hard,当γ值过低时(如0.1),模型可能难以生成高质量图像,甚至会导致生成失败。
基于这些发现,研究者为不同模型设定了不同的默认γ值:VQ-GAN为0.2,VAR和RAR为0.1。对于LBW-Soft,随着偏置常数σ的增加,水印的稳健性先提高后趋于饱和。虽然更大的σ值能增强水印的可检测性,但过高的值可能会限制代币生成,影响图像质量。
在多绿色列表策略方面,实验表明当列表数量达到32个或更多时,水印图像的代币频率分布与无水印图像几乎无法区分,有效防止了基于频率的攻击。
最终,研究者选择了σ=7(VAR)、σ=4(VQ-GAN)和σ=8(RAR)作为LBW-Soft的默认值,在水印稳健性和图像质量之间取得了良好的平衡。
九、研究意义与未来展望
这项研究的意义不仅在于提出了一种新的水印方法,更在于它为自回归图像生成模型开创了水印技术的新范式。与现有主要为扩散模型设计的水印技术不同,LBW专门针对自回归模型的特性进行了优化,能够无缝集成到现有的AR图像生成流程中。
更重要的是,LBW展示了对重生成攻击的卓越抵抗能力,这是现有水印技术的主要弱点。这意味着,即使图像经过设计用来移除水印的处理,LBW嵌入的水印仍然可能被检测到,为AI生成内容的可追溯性和责任归属提供了更可靠的保障。
此外,LBW的多绿色列表策略为增强水印安全性提供了新思路,可能启发未来更多关于增强AI生成内容可信度的研究。
随着AR模型在图像生成领域的应用不断扩大,LBW可能成为确保这些技术负责任使用的重要工具,帮助我们在享受AI创新带来的便利的同时,有效管理潜在风险。
未来的研究方向可能包括进一步优化多绿色列表生成算法,探索更多元化的代币偏向策略,以及将LBW扩展到视频、音频等其他媒体类型的生成模型中。
总的来说,这项研究不仅解决了一个技术挑战,也为AI生成内容的安全与责任问题提供了有价值的解决方案,推动了AI技术的健康发展。
来源:至顶网一点号