论文的第一作者是来自西湖大学的研究人员雷明坤,指导老师为西湖大学通用人工智能(AGI)实验室的负责人张驰助理教授。实验室的研究方向聚焦于生成式人工智能和多模态机器学习。 文本驱动的风格迁移是图像生成中的一个重要任务,旨在将参考图像的风格与符合文本提示的内容融合在一起,生成最终的风格化图片。 近年来,随着 Stable Diffusion 等文本到图像生成模型的发展,这些技术使得在保留内容准确性的同时,实现出色的风格转换成为可能。这项技术在数字绘画、广告和游戏设计等领域具有重要的应用价值。 然而,以往的风格迁移算法会让结果的风格化图像过拟合到参考的风格图像上;从而丢失文本控制能力(例如指定颜色)。 为了解决这一难题,西湖大学、复旦大学、南洋理工大学、香港科技大学(广州)等机构的研究团队联合提出了 无需额外训练的改进方法 ,能够与众多已有方法进行结合。简单来说,研究团队优化了图像和文本共同引导生成风格化图像的时候,两种条件如何融合的问题。同时也探讨了关于风格化图像稳定生成和风格歧义性的问题。摘要:论文的第一作者是来自西湖大学的研究人员雷明坤,指导老师为西湖大学通用人工智能(AGI)实验室的负责人张驰助理教授。实验室的研究方向聚焦于生成式人工智能和多模态机器学习。
论文标题:StyleStudio: Text-Driven Style Transfer with Selective Control of Style Elements
论文链接:https://arxiv.org/abs/2412.08503
项目地址:https://stylestudio-official.github.io/
Github 地址:https://github.com/Westlake-AGI-Lab/StyleStudio
问题背景 风格定义的模糊性 现在的风格迁移技术由于定义 “风格” 时固有的模糊性,仍然未能达到预期的效果。现在的方法主要在解决的问题是风格图像中的内容元素泄漏进风格化图像中,导致风格化图像完全不遵循文本条件,即内容泄漏问题。 然而,一个风格图像中包含了多种元素,如色彩、纹理、光照和笔触;所有这些元素都构成了图像中的整体美学。 现有的方法通常会复制所有的这些元素,这可能会无意中导致过拟合,即生成的输出过于模仿参考风格图像的特点,这种对细节的过度复制不仅降低了生成图像的美学灵活性,也限制了它适应不同风格或基于内容需求的能力。因此, 理想的风格迁移方法应该允许更选择性的风格调整,给予用户强调或省略特定风格组件的灵活性,以实现平衡且有意图的转换 。 另一个由过拟合引发的挑战是在文本到图像生成过程中保持文本对齐准确性困难,即便是在相当简单的文本条件下,例如 “A ” 这类简单文本。当前模型会优先考虑来自风格图像的主要颜色或图案条件,即使它们与文本提示中指定的条件相冲突矛盾。这种不可控制性削弱了模型解读和结合细致文本指导的能力,导致生成结果的精准性和定制化能力下降。 最后,风格迁移可能会引入一些不期望的图像特征,影响文本到图像生成模型的效果稳定性。例如,一种常见问题是布局不稳定(例如棋盘格效应),即重复的图案会不经意地出现在整个生成图像中,不论用户的文本条件如何。这突显了风格迁移过程中额外复杂性带来的挑战。 当前风格化文生图模型存在的问题可以总结归纳为以下三个方面:风格化图像过拟合导致保持文本对齐准确性困难。
风格化图像过拟合导致风格图像中风格元素迁移的不可控。
风格化图像出现不稳定生成的问题,例如棋盘格效应。
StyleStudio 核心创新 针对风格定义模糊性导致的三个问题,研究团队提出了针对每个问题的解决方案。具体的解决方法如下: 贡献一:跨模态自适应实例正则化技术 (cross-modal AdaIN) 在文本驱动的风格迁移中,传统的基于适配器的方法(Adapter-Based)方法通过加权求和直接组合引导图像生成的文本和图像条件,这样的做法可能导致两种条件之间的信息冲突,影响最终的生成效果。 研究团队提出了 跨模态自适应实例正则化技术 Cross-Modal AdaIN 。论文回顾了经典风格迁移算法 AdaIN 技术,然后提出了多模态版本 AdaIN 来解决文本驱动的风格迁移问题。具体来说,该算法首先分别处理文本和风格特征以生成独立网格特征图,再应用原本的 AdaIN 技术使文本特征通过风格特征归一化,最后将结果融合进 U-Net 特征中。此方法自适应地平衡了文本与风格条件的影响,最小化了输入间的潜在冲突;并避免了复杂超参数的设置,提高了模型对文本提示和风格参考的理解能力和生成质量。 与此同时,得益于传统的基于适配器的方法(Adapter-Based)采用加权求和组合文本和图像条件,这保证了两个特征图位于相同的嵌入空间(embedding space);研究团队发现可以直接将跨模态自适应实例正则化技术替换传统基于适配器的方法(Adapter-Based)中的加权求和策略,且不需要进行额外的训练。来源:晚晚的星河日记一点号
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!