VAE再被补刀！清华新模型，训练速度暴涨千倍

摘要：说白了，SVG 是一套把“语义”和“细节”拆开来处理，然后再把两股信息凑到一块去生成图像的办法。听起来有点像两个人分工合作：一个负责看大方向——这是不是猫、这是不是车，另一个专门盯着毛色、纹理这些细枝末节，最后再把两个人的活儿拼在一起。这个思路带来的直观好处就

清华和快手可灵的人做出一套新方法，叫 SVG。

说白了，SVG 是一套把“语义”和“细节”拆开来处理，然后再把两股信息凑到一块去生成图像的办法。听起来有点像两个人分工合作：一个负责看大方向——这是不是猫、这是不是车，另一个专门盯着毛色、纹理这些细枝末节，最后再把两个人的活儿拼在一起。这个思路带来的直观好处就是训练和生成都快了——他们给出的数字挺刺激：训练速度比那种带 VAE 的老方案快大概 62 倍，生成速度也快了大约 35 倍。这几组数字摆在那儿，不用夸张，效果确实明显。

把人话往技术细节里扯一扯。实验上他们用了 ImageNet 256×256 的数据集，SVG-XL 只跑了 80 个 epoch，就在没有什么额外分类器引导的情况下，把 FID 拉到了 6.57。对比一下，同规模、基于 VAE 的 SiT-XL 是 22.58，差距能看见。要是把训练时间拉长，跑到 1400 个 epoch，SVG 的 FID 能降到 1.92，已经接近现在顶级生成模型的水平。推理那块也很有意思：做 5 步采样时，SVG-XL 的 gFID 是 12.26，而 SiT-XL（SD-VAE）和 SiT-XL（VA-VAE）分别是 69.38、74.46。还有个消融实验，把他们那个“分布对齐”模块去掉，FID 从 6.12 跳到了 9.03，这说明对齐不是装样子，真有用。

那他们到底怎么弄的？核心就是把特征空间切成两股。负责宏观语义的用的是 DINOv3，这玩意儿是用大量自监督训练出来的，对高层次语义特别敏感，能把猫和狗、车和人这种类别边界拉开。不过它不太关心颜色、纹理这种细节。为了解决这个问题，团队又加了一个轻量级的残差编码器，专门补回那些被 DINOv3 忽略的高频信息。关键一步是“分布对齐”：技术上让残差编码器输出的细节在数值分布上和 DINOv3 的语义特征对齐，这样两股信息既能互补，又不会互相干扰。你可以把它想成夫妻俩做菜：一个负责主菜的味道方向，一个负责配料的香气，但最后得把盐糖放对比例，别把吃的搞砸了。

和以前那种把 VAE 潜空间直接当万能钥匙的办法比，SVG 不走老路。传统 VAE 把整张图压进一个低维潜空间，结果语义容易纠缠——想改颜色的时候，体型、表情也可能跟着变，迁移到分类、分割这类任务上也不太顺手。社区里有人尝试把预训练编码器直接复用到生成任务（像 RAE 那类工作），这确实在速度上有好处，但更多是把精力放在“把图生成得快又好”上，特征的通用性弱。SVG 的做法更像是把表征从根上重塑：语义和细节各司其职，再用对齐把它们合在一起，既为生成服务，也保留了下游任务的使用价值。

多任务能力上，SVG 继承了 DINOv3 的语义强项，所以在分类、分割、深度估计这些任务上可以直接用编码器，基本不用再大刀阔斧地微调。给几个数据感受下：ImageNet-1K 的 Top-1 精度到 81.8%，和原始 DINOv3 差别不大；在 ADE20K 的分割任务上 mIoU 达到 46.51%，和专门做分割的模型接近。这说明他们的特征既能用来生成高质量图像，也能直接被拿去做别的视觉任务。

团队背景也别藏着掖着。项目负责人是郑文钊，现在在加州大学伯克利做博士后，他在清华自动化系读博士时就一直搞深度学习这摊。清华圈里还有史明磊和王皓霖，两位还在读博，方向是多模态生成模型。史明磊还透露自己正在创办一家跟 AI 应用有关的公司。快手可灵团队那边有 Ziyang Yuan、Xiaoshi Wu、Xintao Wang、Pengfei Wan，Pengfei 在快手负责视频生成模型的工作。整支队伍里既有学术背景，也有工程落地的经验，做出来的东西很自然地兼顾研究性和实用性。

读他们的论文和代码会发现不少工程细节：分支设计不是随便搭的，分布对齐的损失、残差编码器做得轻量化，这些都是权衡性能和泛化能力的手段。把预训练表征和生成目标结合起来，这条路现在看着很有意思，也值得观察它下一步在工业界怎么落地。论文在 arXiv 上，代码也开源在 GitHub（论文地址：https://arxiv.org/abs/2510.15301；代码地址：https://github.com/shiml20/SVG）。

来源：儒雅溪流Gxfm6

标签：模型清华 svg 补刀 vae

本文地址：http://news.43b.com.cn/a/1710025.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!