摘要:AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。 投稿邮箱:liyazhou@jiqi
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。 投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
论文一作陈汐,现为香港大学三年级博士生,在此之前本科硕士毕业于浙江大学,同时获得法国马赛中央理工双硕士学位。主要研究方向为图像视频生成与理解,在领域内顶级期刊会议上发表论文十余篇,并且 GitHub 开源项目获得超过 5K star. 本文中, 香港大学与 Adobe 联合提出名 为 UniReal 的全新图像编辑与生成范式 。该方法将多种图像任务统一到视频生成框架中,通过将不同类别和数量的输入/输出图像建模为视频帧,从大规模真实视频数据中学习属性、姿态、光照等多种变化规律,从而实现高保真的生成效果。Context Prompt: 用于补充描述不同任务和数据集的特性,包括任务目标、数据分特点等背景信息,从而为模型提供更丰富的上下文理解。
Image Prompt: 对输入图像进行层次化划分,将其分为三类:
Asset(前景 ): 需要重点操作或变更的目标区域;
Canvas(画布): 作为生成或编辑的背景场景;
Control(控制): 提供约束或引导的输入信号,如参考图像或控制参数。
为每种类别的输入图像单独训练不同的 embedding,从而帮助模型在联合训练中区分输入图像的作用和语义,避免不同任务和数据引发的冲突与歧义。 通过这种层级化提示设计,模型能够更高效地整合多样化的任务和数据,显著提升联合训练的效果,进一步增强其生成和编辑能力。 数据构造: 我们基于原始视频数据构建了大规模训练数据集,以支持多样化的任务需求。具体步骤如下: 1. 编辑数据生成 从视频中随机抽取前后两帧,分别作为编辑前和编辑后的图像结果,并借助视觉语言模型(VLM)生成对应的编辑指令,以模拟多样化的图像编辑任务。 2. 多目标定制化生成 我们结合 VLM 与 SAM2,在视频首帧中分割出不同的目标区域,并利用这些目标区域重建后续帧,构造多目标定制化生成的数据。这种方式能够模拟目标在复杂场景中的动态变化,并为多目标生成任务提供高质量的数据支持。 3. 可控生成与图像理解标注 利用一系列图像理解模型(如深度估计模型)对视频和图像进行自动打标。这些标签不仅为可控生成任务(如深度控制生成)提供了丰富的条件信息,还为图像理解任务(如深度估计、目标分割)提供了标准参考。 通过这种基于原始视频的多层次数据构造策略,我们的模型能够学习真实世界中的动态变化规律,同时支持多种复杂的图像生成与理解任务,显著提升了数据集的多样性和模型的泛化能力。 效果对比 在 指令编辑任务 中,UniReal 能够更好地保持背景像素的一致性,同时完成更具挑战性的编辑任务。例如,它可以根据用户指令生成 “蚂蚁抬起轿车” 的画面,并在轿车被抬起后动态调整冰面上的反射,使其与场景的物理变化相一致。这种能力充分展现了 UniReal 在场景理解和细节生成上的强大性能。 在 定制化生成任务 中,无论是细节的精确保留还是对指令的准确执行,UniReal 都展现出了显著的优势。其生成结果不仅能够忠实还原目标细节,还能灵活响应多样化的指令需求,体现出卓越的生成能力和任务适应性。 在 物体插入任务 中,我们与此前的代表性方法 AnyDoor 进行了对比,UniReal 展现出了更强的环境理解能力。例如,它能够正确模拟狗在水中的姿态,自动调整易拉罐在桌子上的视角,以及精确建模衣服在模特身上的状态,同时保留模特的头发细节。这种对场景和物体关系的高度理解,使 UniReal 在生成真实感和一致性上远超现有方法。 未来展望 UniReal 在多个任务中展现了强大的潜力。然而,随着输入和输出图像数量的进一步扩大,训练与推理效率问题成为需要解决的关键挑战。为此,我们计划探索设计更高效的注意力结构,以降低计算成本并提高处理速度。同时,我们还将这一方案进一步扩展到视频生成与编辑任务中,利用高效的结构应对更复杂的数据规模和动态场景需求,推动模型性能与实用性的全面提升来源:科技之光
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!