斯坦福与Adobe新研究，模仿蒸馏技术轻松让200亿参数图像生成大模型只需几步生成，质量不减

摘要：斯坦福大学和 Adobe 研究院联手，用 pi-Flow（基于策略的流模型）技术，让 200 亿参数的文本到图像大模型，在 4 步之内就生成了媲美教师模型的高质量、高多样性图片。

高质量图像生成又加速了！

斯坦福大学和 Adobe 研究院联手，用 pi-Flow（基于策略的流模型）技术，让 200 亿参数的文本到图像大模型，在 4 步之内就生成了媲美教师模型的高质量、高多样性图片。

让图像生成模型少走几步

所有玩过 AI 绘画的人都有一个共同的体验，未蒸馏的原版大模型，点击生成，看着进度条一点点爬升，从一个模糊的噪声，慢慢变得清晰。这个过程短则十几秒，长则几分钟。

模型拿到一团纯粹的随机噪声，然后一步一步地猜，“如果我想得到一张猫的图片，这一步应该把噪声变成什么样？”。这个过程叫“去噪”。它需要猜几十步甚至上百步，才能把一个随机的东西，变成一张有意义的画。

每一步，模型都要完整地运行一次，消耗巨大的计算资源。

于是有人想，能不能少走几步？比如原来要走 100 步，现在我走 10 步、5 步，甚至 1 步，行不行？

这就是所谓的“少步采样”（Few-Step Generation）。

但当你强行减少步数，问题就来了。步子迈得太大，容易扯着。专业点说，这叫“离散化误差”。

模型本来是基于一个连续的、平滑的变换过程设计的，你非要让它大踏步地跳着走，中间的细节就全丢了。结果就是生成的图片质量急剧下降，要么模糊不清，要么出现各种奇怪的伪影。

还有“质量-多样性权衡”问题。

少步生成要想图片质量高，生成的多样性就得牺牲。出来的图来来回回就那几个样子，失去了创作的惊喜感。反过来，如果想让图片风格多变，质量又会变得很差。就像一个学画画的学生，如果只让他快速画几笔，他要么只能画出他最熟练的那一个东西，要么就画得乱七八糟。

为了解决这个问题，大家想了很多办法，比如“模型蒸馏”。就是让一个已经训练好的知识渊博的“教师模型”，手把手教一个“学生模型”怎么快速拿到好结果。

但这个过程很复杂，有时候需要引入额外的判别器（GAN, 生成对抗网络），或者计算复杂的雅可比向量积（JVP, Jacobian-Vector Product），工程上非常麻烦，效果也常常不尽如人意。

GMFlow 说，世界不是非黑即白

斯坦福大学和 Adobe 研究院联手搞的一个项目 LakonLab，决定从根子上解决问题。他们首先推出的 GMFlow，在 2025 年的 ICML（国际机器学习大会）上亮相，直接挑战了传统扩散模型和流匹配模型（Flow Matching Models）的一个基本假设。

传统模型在去噪的每一步，都假设像素下一步应该变成的样子，符合一个简单的高斯分布。也就是说，模型会预测一个最可能的目标均值，然后朝着那个方向走。

但真实世界复杂得多。一个像素点在去噪过程中，完全可以有多种同样合理的可能性。比如，一块区域既可以是蓝天，也可以是白云。传统模型强行让它选一个，就可能导致最终结果很僵硬，缺乏细节和真实感。

GMFlow 想：为什么只能有一个选项？

它不再预测一个单一的高斯均值，而是预测一个高斯混合分布（Gaussian Mixture, GM）。模型在每一步都会说：“这个像素点，有 40% 的可能应该变成这个样子（第一个高斯分布），有 30% 的可能应该变成那个样子（第二个高斯分布），还有 30% 的可能……”

它为像素的演化提供了多个备选项，并且给出了每个选项的概率。这一下就把模型的表达能力打开了。它能更好地捕捉真实世界中那种模棱两可、充满多种可能性的状态。这对于生成细节丰富、纹理复杂的图像至关重要。

为了配合这个新的输出形式，GMFlow 还设计了一套专属的 GM-SDE（随机微分方程）和 GM-ODE（常微分方程）求解器。这套求解器能够精确地利用模型给出的高斯混合信息，进行更准确的采样。即使在很少的步数下，也能有效地减少离散化误差。

GWMFlow 还改进了引导方式。传统的分类器自由引导（Classifier-Free Guidance, CFG）是通过加强文本提示的影响力来提升图像质量，很容易用力过猛，导致图像色彩过饱和、细节失真。GMFlow 提出了概率引导（Probabilistic Guidance），这种方式更温和、更智能，它利用高斯混合分布的概率信息来做引导，既提升了质量，又避免了过饱和问题。

GMFlow 的效果立竿见影。在 ImageNet 256×256 这个标准数据集上，只用 6 步采样，它的精度（Precision）就达到了 0.942，明显超过了之前的流匹配基线模型。

pi-Flow 把老师傅的心法学会了

如果说 GMFlow 是对模型“看世界”的方式做了升级，那么 pi-Flow，就是对模型“行动”的方式进行了一场彻头彻尾的革命。

pi-Flow 的全称是“基于策略的流模型”（Policy-Based Flow Models）。它的核心思想，来自于一个非常聪明的类比：模仿蒸馏（Imitation Distillation）。

我们继续用教师和学生的例子。以前的蒸馏方法，好比是教师模型（走的慢但画得好）在每个关键节点，告诉学生模型（想走的快）：“你应该走到这里”。学生模型就拼命学习，记住每个节点的位置。但当步数变得极少，比如从 100 步压缩到 4 步，节点之间间隔巨大，学生就懵了，因为它不知道两点之间该怎么走才是最优路径，只能硬着头皮走直线，结果自然很差。

pi-Flow 换了个思路。它不让学生模型去死记硬背那几个关键节点的位置。

它让学生模型学习老师傅的“心法”。

这个“心法”，在 pi-Flow 里被称为“策略”（Policy）。

具体来说，学生模型的网络不再直接输出一个最终的去噪结果，而是输出一个“策略”。这个策略是一个小型的、不依赖于大模型本身的计算规则。拿到这个策略后，你可以在当前的一大步（比如从第 1 步到第 2 步）之内，再进行多次微小的子步骤计算。

关键点在于，这些子步骤的计算，完全由这个“策略”来指导，不需要再反复调用那个庞大、笨重的学生网络。

这就像老师傅教徒弟功夫，不是教他一招一式的死套路，而是教他一套内功心法。徒弟学会心法后，就可以根据实际情况，在一次交手中瞬息万变地使出无数招式，而不需要每次都停下来问师傅“这下该怎么办”。

这个教学过程，pi-Flow 称之为“策略模仿蒸馏”（pi-ID）。它通过一个简单的 L2 流匹配损失函数，让学生模型生成的“策略”，在执行完一系列子步骤后的最终轨迹，与教师模型慢悠悠走出来的精确轨迹，尽可能地对齐。

整个过程异常干净利落。没有花里胡哨的辅助网络，没有不稳定的对抗训练（GAN），也不需要计算复杂的 JVP。就是一个简单的 L2 损失，直指问题核心。

pi-Flow 的这个设计，直接打破了前面提到的“质量-多样性”的魔咒。

因为它学习的不是一个僵化的结果，而是一个动态生成路径的“方法论”。这个方法论本身就蕴含了教师模型对于多样性的理解。因此，学生模型在快速生成时，既能保持教师级别的图像质量和风格一致性，又能产生丰富的多样性。

在 ImageNet 256×256 数据集上，它用 DiT（一种流行的视觉 Transformer 架构）做学生模型，仅需 1 次网络功能评估（1-NFE），也就是模型主体只跑一次，就能达到 2.85 的 FID（一个衡量生成图像质量和多样性的核心指标，越低越好）。

LakonLab 把它用在了 FLUX.1（120 亿参数）和 Qwen-Image（通义千问-Image，200 亿参数）这种巨无霸模型上。结果，在仅仅 4 次网络评估（4 NFEs）下，pi-Flow 生成图像的多样性，显著超过了当时市面上其他的少步生成方案，比如 SenseFlow 和 Qwen-Image Lightning，同时图像质量几乎和需要走很多步的教师模型看不出差别。