摘要:CFG-Zero*是由南洋理工大学S-Lab 与普渡大学提出的无分类引导新范式,支持所有Flow-Matching的生成模型,目前已被集成至Diffusers与ComfyUI
【新智元导读】 CFG-Zero*是由南洋理工大学S-Lab 与普渡大学提出的无分类引导新范式,支持所有Flow-Matching的生成模型,目前已被集成至Diffusers与ComfyUI
随着生成式AI的快速发展,文本生成图像与视频的扩散模型(Diffusion Models)已成为计算机视觉领域的研究与应用热点。
近年来,Flow Matching作为一种更具可解释性、收敛速度更快的生成范式,正在逐步取代传统的基于随机微分方程(SDE)的扩散方法,成为主流模型(如Lumina-Next、Stable Diffusion 3/3.5、Wan2.1等)中的核心方案。
然而,在这一技术迭代过程中,一个关键问题依然没有被解决:如何在推理阶段更好地引导生成过程,使模型输出更加符合用户提供的文本描述。
Classifier-Free Guidance(CFG)是当前广泛采用的引导策略,但其引导路径在模型尚未充分训练或估计误差较大时,容易导致样本偏离真实分布,甚至引入不必要的伪影或结构崩塌。
对此,南洋理工大学S-Lab与普渡大学的研究者联合提出了创新方法——CFG-Zero⋆,针对传统CFG在Flow Matching框架下的结构性误差进行了理论分析,并设计了两项轻量级但效果显著的改进机制,使生成图像/视频在细节保真度、文本对齐性与稳定性上全面提升。
项目主页: https://weichenfan.github.io/webpage-cfg-zero-star/
代码仓库: https://github.com/WeichenFan/CFG-Zero-star
论文地址: https://arxiv.org/abs/2503.18886
CFG为何失效?
传统的CFG策略通过对有条件与无条件预测结果进行插值来实现引导,然而在Flow Matching模型中,推理过程是通过解常微分方程(ODE)进行的,其每一步依赖于前一步的速度估计。
当模型训练不足时,初始阶段的速度往往较为不准确,而CFG此时的引导反而会将样本推向错误轨迹。研究者在高斯混合分布的可控实验中发现,CFG在初始步的引导效果甚至不如「静止不动」,即设速度为0。
CFG-Zero⋆
研究者提出了CFG-Zero⋆,并引入以下两项关键创新:
优化缩放因子(Optimized Scale):在每个时间步中动态计算有条件速度与无条件速度的内积比值,从而调整CFG中无条件项的强度,避免「过度引导」导致的误差。
零初始化(Zero-init):将ODE求解器的前K步速度置为零(默认K=1),跳过模型最不可靠的预测阶段,有效降低初始误差传播。
这两项策略可无缝集成至现有的CFG推理流程中,几乎不引入额外计算开销。
首先CFG的目标是能够估计出一个修正的速度,能够尽可能的接近真实速度:
为了提升引导的精度,研究者引入了一个修正因子s:
基于此可以建立优化的目标:
代入化简可以得到:
求解最优值为
因此新的CFG形式为:
零初始化
研究者在2D多元高斯分布上进行进一步定量分析,可以求解得到扩散过程中每一步的最优速度的closed-form:
基于此可以训练出一个模型,下图展现了模型在不同训练轮数下的误差。
研究者发现在训练早期阶段,无分类引导得到的速度误差较大,甚至不如将速度设置为0:
进一步在高纬情况下验证了这一观察,如下表所示。
研究者对比原始CFG,与仅使用零初始化的CFG,发现随着模型的收敛,零初始化的收益逐渐变小,在160轮训练后出现拐点,与多元高斯实验结果吻合。
实验结果
研究者在多个任务与主流模型上验证了CFG-Zero⋆的有效性,涵盖了文本生成图像(Text-to-Image)与文本生成视频(Text-to-Video)两大方向。
在图像生成任务中,研究团队选用了Lumina-Next、SD3、SD3.5、Flux等当前SOTA模型进行对比实验,结果显示CFG-Zero⋆在Aesthetic Score与CLIP Score两项核心指标上均优于原始CFG。
例如在Stable Diffusion 3.5上,美学分有明显提高,不仅图像美感更强,而且语义一致性更好。在T2I-CompBench评测中,CFG-Zero⋆在色彩、纹理、形状等多个维度均取得更优表现,特别适用于需要精准表达复杂语义的生成任务。
在视频生成任务中,研究者将CFG-Zero⋆集成到Wan2.1模型中,评估标准采用VBench基准套件。
结果表明,改进后的模型在Aesthetic Quality、Imaging Quality、Motion Smoothness等方面均有所提升,呈现出更连贯、结构更稳定的视频内容,有效减少了图像跳变与不自然的位移问题。
实际测试
CFG-Zero⋆在开源社区中实现了快速落地。目前,该方法已正式集成至ComfyUI与Diffusers官方库,并被纳入视频生成模型Wan2.1GP的推理流程。借助这些集成,普通开发者与创作者也能轻松体验该方法带来的画质与文本对齐提升。
该方法可以用于图生视频,使用官方的repo用这张测试图:
prompt:Summer beach vacation style. A white cat wearing sunglasses lounges confidently on a surfboard, gently bobbing with the ocean waves under the bright sun. The cat exudes a cool, laid-back attitude. After a moment, it casually reaches into a small bag, pulls out a cigarette, and lights it. A thin stream of smoke drifts into the salty breeze as the cat takes a slow drag, maintaining its nonchalant pose beneath the clear blue sky.
得到的视频如下:(第一个为原始CFG生成的,第二个为CFG-Zero*生成的),效果还是比较明显,值得尝试。
该方法对wan2.1 文生视频同样适用:(图1为原始CFG,图2为CFG-Zero*)
Prompt:A cat walks on the grass, realistic.
该方法同时兼容LoRA: https://civitai.com/models/46080?modelVersionId=1473682
Prompt:Death Stranding Style. A solitary figure in a futuristic suit with a large, intricate backpack stands on a grassy cliff, gazing at a vast, mist-covered landscape composed of rugged mountains and low valleys beneath a rainy, overcast sky. Raindrops streak softly through the air, and puddles glisten on the uneven ground. Above the horizon, an ethereal, upside-down rainbow arcs downward through the gray clouds — its surreal, inverted shape adding an otherworldly touch to the haunting scene. A soft glow from distant structures illuminates the depth of the valley, enhancing the mysterious atmosphere. The contrast between the rain-soaked greenery and jagged rocky terrain adds texture and detail, amplifying the sense of solitude, exploration, and the anticipation of unknown adventures beyond the horizon.
该方法对最强文生图模型Flux同样支持:
Prompt:a tiny astronaut hatching from an egg on the moon.
该方法实现也比较简单,作者在附录中直接附上了代码,如下图:
总结
该工作在几乎不引入额外计算量的情况下,提出了一种更好的无分类器引导范式,对所有的流匹配模型都适用,是一种「无痛」涨点方法。
从视觉效果来看,优化缩放因子会提升图片/视频很多细节,但是不会修正语义信息,零初始化会对整体有比较大的修改,让图片更自然,视频的运动更合理与流畅,但目前该方法只适用于流匹配模型,如何将该方法泛化至其他类型的扩散模型可能是比较有价值的研究方向。
来源:科技列车