摘要:本文介绍了一种新的文本到图像生成方法——“一个提示一个故事”,该方法可以在不需要大量训练数据的情况下实现一致性的身份保留要求。作者通过观察语言模型的内在能力——上下文一致性,提出了这种方法,并使用两个新颖的技术——奇异值重权和身份保持交叉注意力,以确保更好的输
本文介绍了一种新的文本到图像生成方法——“一个提示一个故事”,该方法可以在不需要大量训练数据的情况下实现一致性的身份保留要求。作者通过观察语言模型的内在能力——上下文一致性,提出了这种方法,并使用两个新颖的技术——奇异值重权和身份保持交叉注意力,以确保更好的输入描述对齐。实验结果表明,“一个提示一个故事”比现有的一致性文本到图像生成方法更有效。
该论文提出了一种名为“1Prompt1Story”的方法,用于在图像生成任务中保持一致性。该方法基于SDXL模型,并使用文本编码器(CLIP)来提取输入文本的特征表示。它将多个框架提示合并为一个单独的提示,并通过几种技术来增强其表达能力和一致性。
首先,论文展示了在文本嵌入空间中的上下文一致性。他们发现,在单个提示设置下,框架提示之间的语义距离更小,而在多提示设置下更大。因此,他们建议使用单个提示来提高一致性。
其次,论文提出了两种技术来进一步增强一致性和表达能力:奇异值加权(SVR)和身份保留交叉注意力(IPCA)。奇异值加权通过调整每个框架提示的权重来强调所需生成的帧并抑制其他帧。身份保留交叉注意力则通过过滤掉与特定帧无关的信息来加强身份一致性。
相比于现有的多提示方法,“1Prompt1Story”方法通过使用单个提示和上述技术提高了图像的一致性和表达能力。此外,它还引入了奇异值加权和身份保留交叉注意力等新方法,以进一步优化生成结果。
“1Prompt1Story”方法旨在解决在图像生成任务中保持一致性的问题。通过将多个框架提示合并为一个单独的提示,并应用奇异值加权和身份保留交叉注意力等技术,该方法能够生成更具一致性和表达力的图像。这有助于提高图像生成的质量和效率。
本文主要介绍了基于文本和图像的生成模型1Prompt1Story,并通过与多个现有方法的比较来验证其性能。具体来说,本文进行了以下四个实验:
实验设置:本文比较了1Prompt1Story和其他六种一致T2I生成方法的性能,包括BLIP-Diffusion、Textual Inversion、IP-Adapter、PhotoMaker、The Chosen One和ConsiStory等。为了评估这些方法的性能,本文引入了ConsiStory+扩展版基准,该基准涵盖了更广泛的主体、描述和风格。此外,本文还介绍了用于评估prompt对齐性能和身份一致性评价的CLIP-Score、DreamSim和CLIP-I等指标。
质量比较:本文展示了1Prompt1Story与其他方法的质量比较结果。在图5中,可以看出1Prompt1Story在多个关键方面表现良好,如身份保留、准确的帧描述和对象姿势的多样性。相比之下,其他方法在其中一个或多个方面存在不足之处。例如,PhotoMaker、ConsiStory和StoryDiffusion都产生了不一致的身份,而IP-Adapter倾向于生成重复姿态和相似背景的图像,经常忽视帧提示描述。ConsiStory也显示出了重复背景生成的问题。
数量比较:在表1中,本文展示了1Prompt1Story与其他方法的数量比较结果。在所有评估指标中,1Prompt1Story在不需要训练的方法中排名第一,在包括需要训练的方法时排名第二。此外,与其它不需要训练的方法相比,1Prompt1Story实现了合理的快速推理速度并取得了出色的性能。具体而言,1Prompt1Story实现了与SDXL模型类似的CLIP-T分数。在身份相似度方面,使用CLIP-I和DreamSim测量,1Prompt1Story仅次于IP-Adapter。然而,IP-Adapter高身份相似度的主要原因是它倾向于生成具有类似姿势和布局的角色图像。为进一步探索这种潜在偏见,本文进行了用户研究以了解人类偏好。同时,本文还将定量结果可视化为图表(见图6)。
用户研究:本文进行了用户研究,将1Prompt1Story与几个最先进的方法进行了比较,包括IP-Adapter、ConsiStory和StoryDiffusion。从本基准中随机选择了30组提示,每组包含四个固定长度的提示,生成测试图像。然后,20名参与者被要求选择最能展示整体性能的图像,其中包括身份一致性、prompt对齐和图像多样性的最佳表现。结果显示,1Prompt1Story在与人类偏好的匹配程度上表现最好。更多细节请参见附录F。
Ablation研究:本文进行了Ablation研究,分析了每个组件的影响。结果表明,使用Singular-Value Reweighting和Identity-Preserving Cross-Attention可以实现最佳性能。此外,本文还展示了1Prompt1Story在额外应用方面的效果,例如与ControlNet结合实现空间控制,以及与PhotoMaker结合提高身份一致性。
该论文提出了一种新颖的方法来解决文本到图像(T2I)生成中的主题一致性问题。通过利用自然语言中固有的上下文一致性特性,作者提出了One-Prompt-One-Story(1Prompt1Story)方法,该方法使用单个扩展提示来确保在不同场景下保持一致的身份表示。该方法不仅改进了帧描述,还增强了注意力层的一致性。实验结果表明,1Prompt1Story方法比现有技术更有效,并具有广泛的应用前景。
该论文的主要贡献在于提出了一种基于自然语言上下文一致性的新方法来解决T2I生成中的主题一致性问题。该方法不需要额外的微调或复杂的模块设计,而是利用了长提示中身份信息的隐含维护能力。具体来说,该方法将所有所需的提示合并为一个更长的句子,然后通过重权化合并后的提示嵌入来调整T2I生成性能。此外,该方法引入了两个额外的技术:奇异值重加权(SVR)和身份保留交叉注意(IPCA),以进一步增强文本-图像对齐和主体一致性。
该论文提出的One-Prompt-One-Story方法是一种有前途的解决方案,可以应用于动画、互动故事讲述、视频生成等领域的T2I生成任务。然而,该方法仍存在一些限制,例如需要更多的计算资源和较长的训练时间。因此,在未来的研究中,可以通过优化算法和硬件设备来提高效率,并探索其他方法来进一步提高T2I生成的质量和速度。
来源:宁教授网络空间元宇宙