摘要:说白了,SVG 是一套把“语义”和“细节”拆开来处理,然后再把两股信息凑到一块去生成图像的办法。听起来有点像两个人分工合作:一个负责看大方向——这是不是猫、这是不是车,另一个专门盯着毛色、纹理这些细枝末节,最后再把两个人的活儿拼在一起。这个思路带来的直观好处就
清华和快手可灵的人做出一套新方法,叫 SVG。
说白了,SVG 是一套把“语义”和“细节”拆开来处理,然后再把两股信息凑到一块去生成图像的办法。听起来有点像两个人分工合作:一个负责看大方向——这是不是猫、这是不是车,另一个专门盯着毛色、纹理这些细枝末节,最后再把两个人的活儿拼在一起。这个思路带来的直观好处就是训练和生成都快了——他们给出的数字挺刺激:训练速度比那种带 VAE 的老方案快大概 62 倍,生成速度也快了大约 35 倍。这几组数字摆在那儿,不用夸张,效果确实明显。
把人话往技术细节里扯一扯。实验上他们用了 ImageNet 256×256 的数据集,SVG-XL 只跑了 80 个 epoch,就在没有什么额外分类器引导的情况下,把 FID 拉到了 6.57。对比一下,同规模、基于 VAE 的 SiT-XL 是 22.58,差距能看见。要是把训练时间拉长,跑到 1400 个 epoch,SVG 的 FID 能降到 1.92,已经接近现在顶级生成模型的水平。推理那块也很有意思:做 5 步采样时,SVG-XL 的 gFID 是 12.26,而 SiT-XL(SD-VAE)和 SiT-XL(VA-VAE)分别是 69.38、74.46。还有个消融实验,把他们那个“分布对齐”模块去掉,FID 从 6.12 跳到了 9.03,这说明对齐不是装样子,真有用。
那他们到底怎么弄的?核心就是把特征空间切成两股。负责宏观语义的用的是 DINOv3,这玩意儿是用大量自监督训练出来的,对高层次语义特别敏感,能把猫和狗、车和人这种类别边界拉开。不过它不太关心颜色、纹理这种细节。为了解决这个问题,团队又加了一个轻量级的残差编码器,专门补回那些被 DINOv3 忽略的高频信息。关键一步是“分布对齐”:技术上让残差编码器输出的细节在数值分布上和 DINOv3 的语义特征对齐,这样两股信息既能互补,又不会互相干扰。你可以把它想成夫妻俩做菜:一个负责主菜的味道方向,一个负责配料的香气,但最后得把盐糖放对比例,别把吃的搞砸了。
和以前那种把 VAE 潜空间直接当万能钥匙的办法比,SVG 不走老路。传统 VAE 把整张图压进一个低维潜空间,结果语义容易纠缠——想改颜色的时候,体型、表情也可能跟着变,迁移到分类、分割这类任务上也不太顺手。社区里有人尝试把预训练编码器直接复用到生成任务(像 RAE 那类工作),这确实在速度上有好处,但更多是把精力放在“把图生成得快又好”上,特征的通用性弱。SVG 的做法更像是把表征从根上重塑:语义和细节各司其职,再用对齐把它们合在一起,既为生成服务,也保留了下游任务的使用价值。
多任务能力上,SVG 继承了 DINOv3 的语义强项,所以在分类、分割、深度估计这些任务上可以直接用编码器,基本不用再大刀阔斧地微调。给几个数据感受下:ImageNet-1K 的 Top-1 精度到 81.8%,和原始 DINOv3 差别不大;在 ADE20K 的分割任务上 mIoU 达到 46.51%,和专门做分割的模型接近。这说明他们的特征既能用来生成高质量图像,也能直接被拿去做别的视觉任务。
团队背景也别藏着掖着。项目负责人是郑文钊,现在在加州大学伯克利做博士后,他在清华自动化系读博士时就一直搞深度学习这摊。清华圈里还有史明磊和王皓霖,两位还在读博,方向是多模态生成模型。史明磊还透露自己正在创办一家跟 AI 应用有关的公司。快手可灵团队那边有 Ziyang Yuan、Xiaoshi Wu、Xintao Wang、Pengfei Wan,Pengfei 在快手负责视频生成模型的工作。整支队伍里既有学术背景,也有工程落地的经验,做出来的东西很自然地兼顾研究性和实用性。
读他们的论文和代码会发现不少工程细节:分支设计不是随便搭的,分布对齐的损失、残差编码器做得轻量化,这些都是权衡性能和泛化能力的手段。把预训练表征和生成目标结合起来,这条路现在看着很有意思,也值得观察它下一步在工业界怎么落地。论文在 arXiv 上,代码也开源在 GitHub(论文地址:https://arxiv.org/abs/2510.15301;代码地址:https://github.com/shiml20/SVG)。
来源:儒雅溪流Gxfm6