摘要:虚拟试穿技术潜力巨大,但其在真实世界的应用面临两大瓶颈:一是现有方法难以支持包含多件服装和配饰的复杂穿搭组合;二是其核心的扩散模型在生成图像时,因反复计算参考特征而效率低下。
虚拟试穿技术潜力巨大,但其在真实世界的应用面临两大瓶颈:一是现有方法难以支持包含多件服装和配饰的复杂穿搭组合;二是其核心的扩散模型在生成图像时,因反复计算参考特征而效率低下。
为攻克这些难题,来自中山大学、LavieAI和鹏城实验室的研究者们提出了 FastFit ,一个基于新型 可缓存扩散架构(Cacheable Diffusion Architecture) 的高速多参考虚拟试穿框架。FastFit通过引入半注意力(Semi-Attention)机制,并用类别嵌入(Class Embedding)替代传统的时间步嵌入(Timestep Embedding),成功地将参考服装的特征编码过程与耗时的去噪过程完全解耦。
这一创新使得参考特征只需计算一次,便可在所有去噪步骤中无损复用,从根本上解决了效率瓶颈,实现了比同类方法平均 3.5倍 的惊人加速。此外,为了推动该领域的发展,团队还构建并发布了一个全新的大规模多参考虚拟试穿数据集 DressCode-MR 。在多个数据集上的大量实验证明,FastFit不仅在推理效率上遥遥领先,更在图像生成质量的关键指标上超越了当前最先进的方法。
论文标题 :FastFit: Accelerating Multi-Reference Virtual Try-On via Cacheable Diffusion Models
作者 :Zheng Chong;Yanwei Lei;Shiyue Zhang;Zhuandi He;Zhen Wang;Xujie Zhang;Xiao Dong;Yiling Wu;Dongmei Jiang; Xiaodan Liang
机构 :中山大学;LavieAI;鹏城实验室
论文地址 :
代码地址 :
虚拟试穿(Virtual Try-On, VTO)旨在将任意服装图像“穿”到指定的人物模特身上,这项技术有望彻底改变时尚电商和数字内容创作的形态。近年来,基于扩散模型的方法因其出色的图像生成质量,已成为VTO领域的主流。然而,现有技术仍存在两个亟待解决的挑战:
缺乏多参考能力 :现实中的穿搭(outfit)往往是多件单品的组合,如上衣、裤子、鞋子和包包。但现有VTO方法大多只支持单件服装的试穿,无法应对这种更复杂、更实用的多参考组合场景。
推理效率低下 :扩散模型在生成图像时需要执行多步迭代的去噪过程。在每一步,模型都需要将参考服装的特征与当前步的噪声图像、时间步信息结合起来进行计算。这意味着参考服装的特征在整个生成流程中被重复编码了数十次,造成了巨大的计算资源浪费,严重阻碍了VTO技术的实时应用。
为了同时应对这两个挑战,本文提出了FastFit框架。它不仅能够处理包含多件衣物的复杂试穿任务,还通过一种创新的可缓存扩散架构,实现了前所未有的推理速度。
上图展示了FastFit强大的通用性,无论是单参考、跨人物还是复杂的多参考试穿,它都能以更快的速度生成高保真结果。
虚拟试穿技术经历了从基于GAN到基于扩散模型的发展。扩散模型虽然在保真度和细节还原上表现更优,但其固有的迭代特性带来了严重的效率问题。在标准的VTO扩散模型中,UNet去噪器的输入通常包含四部分:带噪潜变量、目标姿态、时间步嵌入和参考服装特征。由于时间步嵌入在每一步都会变化,导致整个输入都随之改变,模型必须在每个去噪步骤中重新计算所有部分的注意力图,尤其是计算成本高昂的参考服装特征,从而导致了严重的效率瓶颈。
上图对比了不同VTO方法的架构。传统方法(a)和(b)在每个去噪步骤中都将参考特征与时间步t耦合,导致重复计算。FastFit(c)通过解耦实现了参考特征的缓存和复用。
为了更好地研究和评估多参考虚拟试穿,研究团队构建了一个全新的大规模数据集—— DressCode-MR 。该数据集的发布填补了该领域在复杂、多品类组合穿搭场景下的数据空白。
规模与内容 :包含28,179组高质量的图像对,每组图像都由一张全身人物照和其身上穿着的单品(上衣、下装、连衣裙、鞋子、包袋五大类)的“标准照”构成。
构建流程 :通过一个“专家模型+人工反馈”的流程精心构建。首先利用先进的分割、修复和姿态估计模型自动处理原始图像,然后由人工进行严格的筛选和修正,确保了数据的高质量和准确性。
上图展示了DressCode-MR数据集中的样本示例,每组样本都包含人物图和对应的多件单品图。
FastFit的核心在于其创新的 可缓存UNet架构 ,它通过两大关键设计实现了参考特征与去噪过程的解耦。
上图为FastFit的整体架构。其核心是一个可缓存的UNet,通过将参考特征的条件从时间步改为类别嵌入,并使用半注意力机制,实现了参考特征的KV缓存,从而避免了重复计算。
4.1 类别嵌入替代时间步嵌入 FastFit做出的第一个关键改动是,在对参考服装进行特征编码时,不再使用变化的时间步 t 作为条件,而是使用一个固定的 类别嵌入(Class Embedding) 。例如,对于一件上衣参考图,模型会输入“上衣”这个类别的嵌入向量。由于类别嵌入是固定不变的,这意味着编码后的参考特征(在注意力机制中表现为Key和Value)也变成了与时间步 t 无关的常量。因此,这些特征可以在去噪过程开始前计算一次,然后被“缓存”起来,在后续所有去噪步骤中直接调用,彻底消除了重复计算的开销。4.2 半注意力机制 (Semi-Attention)仅仅替换嵌入向量还不够,还需要一种新的注意力机制来配合。FastFit为此设计了 半注意力(Semi-Attention) 机制。在这种机制下,不同特征的“注意力权限”是不同的:
去噪特征(Query) :拥有最高权限,可以关注(attend to)网络中所有的特征,包括它自身以及所有参考服装的特征。
参考特征(Key/Value) :权限受限,每个参考单品(如上衣、裤子)的特征只能关注其自身内部的特征,不能“看到”其他参考单品或去噪特征。
上图可视化了半注意力机制的掩码。去噪特征X可以关注所有特征,而每个参考特征Ri则被限制在自身范围内。
这种非对称的注意力设计,既保证了去噪过程能充分从各个参考服装中提取所需信息,又防止了不同参考服装间的信息不当串扰,同时完美地配合了特征缓存策略,实现了效率和质量的统一。
5.1 效率对比效率是FastFit的最大亮点。如下表所示,在与同样基于扩散模型的SOTA方法(如LaDI-VTON、OOTDiffusion)的对比中,FastFit在几乎不增加模型参数量的前提下,将单张图像的生成时间从十几秒大幅缩短至几秒,平均加速比达到了 3.5倍 。
在专门为多参考场景设计的DressCode-MR数据集上,FastFit不仅速度最快,其生成质量(以KID、SSIM、PSNR等指标衡量)也全面超越了其他方法。
定性结果也同样令人信服。如下图所示,FastFit能够高质量地合成包含多件衣物的复杂穿搭,细节清晰,伪影更少。
为了证明其通用性,FastFit也在传统的单参考数据集VITON-HD和DressCode上进行了测试。结果表明,即便是在单参考场景下,FastFit的生成质量依旧能与顶尖方法相媲美,甚至在部分指标上更优。
消融实验证明了FastFit中各个设计的重要性。移除可缓存机制会导致速度大幅下降,而用标准的全注意力机制替换半注意力机制则会导致生成质量的显著降低,验证了FastFit设计的精妙与高效。
本文提出了FastFit,一个为多参考虚拟试穿量身打造的高速生成框架。通过引入创新的可缓存扩散架构,FastFit成功地将参考特征的编码与去噪过程解耦,实现了革命性的 3.5倍 推理加速,同时在生成质量上达到了SOTA水平。此外,本文还贡献了首个大规模多参考虚拟试穿数据集DressCode-MR,为社区的后续研究铺平了道路。FastFit的提出,无疑将极大推动虚拟试穿技术从实验室走向真实世界应用的进程。
来源:寂寞的咖啡