斯坦福与Adobe新研究,模仿蒸馏技术轻松让200亿参数图像生成大模型只需几步生成,质量不减

B站影视 港台电影 2025-10-20 21:08 2

摘要:斯坦福大学和 Adobe 研究院联手,用 pi-Flow(基于策略的流模型)技术,让 200 亿参数的文本到图像大模型,在 4 步之内就生成了媲美教师模型的高质量、高多样性图片。

高质量图像生成又加速了!

斯坦福大学和 Adobe 研究院联手,用 pi-Flow(基于策略的流模型)技术,让 200 亿参数的文本到图像大模型,在 4 步之内就生成了媲美教师模型的高质量、高多样性图片。

让图像生成模型少走几步

所有玩过 AI 绘画的人都有一个共同的体验,未蒸馏的原版大模型,点击生成,看着进度条一点点爬升,从一个模糊的噪声,慢慢变得清晰。这个过程短则十几秒,长则几分钟。

模型拿到一团纯粹的随机噪声,然后一步一步地猜,“如果我想得到一张猫的图片,这一步应该把噪声变成什么样?”。这个过程叫“去噪”。它需要猜几十步甚至上百步,才能把一个随机的东西,变成一张有意义的画。

每一步,模型都要完整地运行一次,消耗巨大的计算资源。

于是有人想,能不能少走几步?比如原来要走 100 步,现在我走 10 步、5 步,甚至 1 步,行不行?

这就是所谓的“少步采样”(Few-Step Generation)。

但当你强行减少步数,问题就来了。步子迈得太大,容易扯着。专业点说,这叫“离散化误差”。

模型本来是基于一个连续的、平滑的变换过程设计的,你非要让它大踏步地跳着走,中间的细节就全丢了。结果就是生成的图片质量急剧下降,要么模糊不清,要么出现各种奇怪的伪影。

还有“质量-多样性权衡”问题。

少步生成要想图片质量高,生成的多样性就得牺牲。出来的图来来回回就那几个样子,失去了创作的惊喜感。反过来,如果想让图片风格多变,质量又会变得很差。就像一个学画画的学生,如果只让他快速画几笔,他要么只能画出他最熟练的那一个东西,要么就画得乱七八糟。

为了解决这个问题,大家想了很多办法,比如“模型蒸馏”。就是让一个已经训练好的知识渊博的“教师模型”,手把手教一个“学生模型”怎么快速拿到好结果。

但这个过程很复杂,有时候需要引入额外的判别器(GAN, 生成对抗网络),或者计算复杂的雅可比向量积(JVP, Jacobian-Vector Product),工程上非常麻烦,效果也常常不尽如人意。

GMFlow 说,世界不是非黑即白

斯坦福大学和 Adobe 研究院联手搞的一个项目 LakonLab,决定从根子上解决问题。他们首先推出的 GMFlow,在 2025 年的 ICML(国际机器学习大会)上亮相,直接挑战了传统扩散模型和流匹配模型(Flow Matching Models)的一个基本假设。

传统模型在去噪的每一步,都假设像素下一步应该变成的样子,符合一个简单的高斯分布。也就是说,模型会预测一个最可能的目标均值,然后朝着那个方向走。

但真实世界复杂得多。一个像素点在去噪过程中,完全可以有多种同样合理的可能性。比如,一块区域既可以是蓝天,也可以是白云。传统模型强行让它选一个,就可能导致最终结果很僵硬,缺乏细节和真实感。

GMFlow 想:为什么只能有一个选项?

它不再预测一个单一的高斯均值,而是预测一个高斯混合分布(Gaussian Mixture, GM)。模型在每一步都会说:“这个像素点,有 40% 的可能应该变成这个样子(第一个高斯分布),有 30% 的可能应该变成那个样子(第二个高斯分布),还有 30% 的可能……”

它为像素的演化提供了多个备选项,并且给出了每个选项的概率。这一下就把模型的表达能力打开了。它能更好地捕捉真实世界中那种模棱两可、充满多种可能性的状态。这对于生成细节丰富、纹理复杂的图像至关重要。

为了配合这个新的输出形式,GMFlow 还设计了一套专属的 GM-SDE(随机微分方程)和 GM-ODE(常微分方程)求解器。这套求解器能够精确地利用模型给出的高斯混合信息,进行更准确的采样。即使在很少的步数下,也能有效地减少离散化误差。

GWMFlow 还改进了引导方式。传统的分类器自由引导(Classifier-Free Guidance, CFG)是通过加强文本提示的影响力来提升图像质量,很容易用力过猛,导致图像色彩过饱和、细节失真。GMFlow 提出了概率引导(Probabilistic Guidance),这种方式更温和、更智能,它利用高斯混合分布的概率信息来做引导,既提升了质量,又避免了过饱和问题。

GMFlow 的效果立竿见影。在 ImageNet 256×256 这个标准数据集上,只用 6 步采样,它的精度(Precision)就达到了 0.942,明显超过了之前的流匹配基线模型。

pi-Flow 把老师傅的心法学会了

如果说 GMFlow 是对模型“看世界”的方式做了升级,那么 pi-Flow,就是对模型“行动”的方式进行了一场彻头彻尾的革命。

pi-Flow 的全称是“基于策略的流模型”(Policy-Based Flow Models)。它的核心思想,来自于一个非常聪明的类比:模仿蒸馏(Imitation Distillation)。

我们继续用教师和学生的例子。以前的蒸馏方法,好比是教师模型(走的慢但画得好)在每个关键节点,告诉学生模型(想走的快):“你应该走到这里”。学生模型就拼命学习,记住每个节点的位置。但当步数变得极少,比如从 100 步压缩到 4 步,节点之间间隔巨大,学生就懵了,因为它不知道两点之间该怎么走才是最优路径,只能硬着头皮走直线,结果自然很差。

pi-Flow 换了个思路。它不让学生模型去死记硬背那几个关键节点的位置。

它让学生模型学习老师傅的“心法”。

这个“心法”,在 pi-Flow 里被称为“策略”(Policy)。

具体来说,学生模型的网络不再直接输出一个最终的去噪结果,而是输出一个“策略”。这个策略是一个小型的、不依赖于大模型本身的计算规则。拿到这个策略后,你可以在当前的一大步(比如从第 1 步到第 2 步)之内,再进行多次微小的子步骤计算。

关键点在于,这些子步骤的计算,完全由这个“策略”来指导,不需要再反复调用那个庞大、笨重的学生网络。

这就像老师傅教徒弟功夫,不是教他一招一式的死套路,而是教他一套内功心法。徒弟学会心法后,就可以根据实际情况,在一次交手中瞬息万变地使出无数招式,而不需要每次都停下来问师傅“这下该怎么办”。

这个教学过程,pi-Flow 称之为“策略模仿蒸馏”(pi-ID)。它通过一个简单的 L2 流匹配损失函数,让学生模型生成的“策略”,在执行完一系列子步骤后的最终轨迹,与教师模型慢悠悠走出来的精确轨迹,尽可能地对齐。

整个过程异常干净利落。没有花里胡哨的辅助网络,没有不稳定的对抗训练(GAN),也不需要计算复杂的 JVP。就是一个简单的 L2 损失,直指问题核心。

pi-Flow 的这个设计,直接打破了前面提到的“质量-多样性”的魔咒。

因为它学习的不是一个僵化的结果,而是一个动态生成路径的“方法论”。这个方法论本身就蕴含了教师模型对于多样性的理解。因此,学生模型在快速生成时,既能保持教师级别的图像质量和风格一致性,又能产生丰富的多样性。

在 ImageNet 256×256 数据集上,它用 DiT(一种流行的视觉 Transformer 架构)做学生模型,仅需 1 次网络功能评估(1-NFE),也就是模型主体只跑一次,就能达到 2.85 的 FID(一个衡量生成图像质量和多样性的核心指标,越低越好)。

LakonLab 把它用在了 FLUX.1(120 亿参数)和 Qwen-Image(通义千问-Image,200 亿参数)这种巨无霸模型上。结果,在仅仅 4 次网络评估(4 NFEs)下,pi-Flow 生成图像的多样性,显著超过了当时市面上其他的少步生成方案,比如 SenseFlow 和 Qwen-Image Lightning,同时图像质量几乎和需要走很多步的教师模型看不出差别。

GMFlow 是理论基础,为 pi-Flow 的策略输出提供了灵感;pi-Flow 则是将这个理论发挥到极致的工程杰作,它把教师的“知识”高效地压缩到了学生的“策略”里。

LakonLab 基石

LakonLab 连续推出 GMFlow 和 pi-Flow,背后是斯坦福大学和 Adobe 研究院强大的工程能力和产学研协同体系。

LakonLab 本身就是一个为大规模扩散模型实验而生的高性能代码库。它的设计目标是要能支撑得起百亿甚至千亿参数级别模型的训练和推理。

这里面有几个关键特性:

分布式训练优化:训练 200 亿参数的模型,单张显卡是天方夜谭。LakonLab 深度整合了多种分布式训练方案,如 DDP(分布式数据处理)、FSDP(完全分片数据并行)等。这些技术能将一个巨大的模型和海量的数据,拆分到成百上千张 GPU(图形处理器)上进行协同训练,极大地提高了训练效率。

权重绑定(Weight Tying):在超大模型中,通过在不同部分共享参数,可以有效减少模型的总参数量和显存占用,让更大模型的训练成为可能。

高级流求解器:它内置了为 GMFlow 和 pi-Flow 量身定制的求解器,如 FlowSDEScheduler 和 FlowAdapterScheduler,保证了算法能高效、精确地运行。

多存储后端支持:支持从本地文件系统、AWS S3 到 HuggingFace 的多种数据存储和模型加载方式,方便研究人员在不同环境下进行实验。

与 Diffusers 的深度集成:Diffusers 是 HuggingFace 推出的一个流行的扩散模型库。LakonLab 与它的集成,意味着这些前沿的技术可以很方便地被更广泛的社区使用和验证。

这个强大的工程底座,是 GMFlow 和 pi-Flow 从理论走向现实的桥梁。

来看看生成效果:

pi-Flow 和 GMFlow 的出现,为图像生成领域,带来了里程碑式的影响。

参考资料:

来源:算泥社区

相关推荐