何恺明团队又发新作： MeanFlow单步图像生成SOTA，提升达50%

摘要：文章提出了一种名为MeanFlow的单步生成建模框架，通过引入平均速度（average velocity）的概念来改进现有的流匹配方法，并在 ImageNet 256×256 数据集上取得了显著优于以往单步扩散 / 流模型的结果，FID 分数达到 3.43，且

机器之心报道

编辑：陈萍

这段时间，大神何恺明真是接连不断地发布新研究。

这不，5 月 19 日，他又放出一篇新作！作者团队来自 CMU 以及 MIT。

论文标题：Mean Flows for One-step Generative Modeling论文地址：https://arxiv.org/pdf/2505.13447v1

文章提出了一种名为 MeanFlow 的单步生成建模框架，通过引入平均速度（average velocity）的概念来改进现有的流匹配方法，并在 ImageNet 256×256 数据集上取得了显著优于以往单步扩散 / 流模型的结果，FID 分数达到 3.43，且无需预训练、蒸馏或课程学习。

生成模型旨在将先验分布转换为数据分布。流匹配提供了一个直观且概念简单的框架，用于构建将一个分布传输到另一个分布的流路径。流匹配与扩散模型密切相关，但关注的是引导模型训练的速度场。自引入以来，流匹配已在现代生成模型中得到广泛应用。

本文提出了一种名为 MeanFlow 的理论框架，用于实现单步生成任务。其核心思想是引入一个新的 ground-truth 场来表示平均速度，而不是流匹配中常用的瞬时速度。

文章提出使用平均速度（在时间间隔内的位移与时间的比值）来代替流匹配中通常建模的瞬时速度。然后本文推导出平均速度与瞬时速度之间存在一个内在的关系，从而作为指导网络训练的原则性基础。

基于这一基本概念，本文训练了一个神经网络来直接建模平均速度场，并引入损失函数来奖励网络满足平均速度和瞬时速度之间的内在关系。

本文进一步证明，该框架可以自然地整合无分类器引导（CFG），并且在采样时无需额外成本。

MeanFlow 在单步生成建模中表现出了强大的性能。在 ImageNet 256×256 数据集上，仅使用 1-NFE（Number of Function Evaluations）就达到了 3.43 的 FID 分数。这一结果显著优于之前同类方法的最佳水平，相对性能提升达到 50% 到 70%（见图 1）。