比离散扩散更通用，首个纯Discrete Flow Matching多模态巨兽降临

摘要：王劲，香港大学计算机系二年级博士生，导师为罗平老师。研究兴趣包括多模态大模型训练与评测、伪造检测等，有多项工作发表于 ICML、CVPR、ICCV、ECCV 等国际学术会议。

王劲，香港大学计算机系二年级博士生，导师为罗平老师。研究兴趣包括多模态大模型训练与评测、伪造检测等，有多项工作发表于 ICML、CVPR、ICCV、ECCV 等国际学术会议。

近年来，大型语言模型（LLMs）在多模态任务中取得了显著进展，在人工通用智能（AGI）的两大核心支柱（即理解与生成）方面展现出强大潜力。然而，目前大多数多模态大模型仍采用自回归（Autoregressive, AR）架构，通过从左到右逐步处理多模态 token 来完成任务，推理缺乏灵活性。

与此同时，基于掩码的离散扩散模型凭借双向建模能力也逐渐兴起，该架构通过双向信息建模显著提升了模型的建模能力。例如，DeepMind 的 Gemini Diffusion 验证了离散扩散在文本建模领域的潜力；在开源社区，LLaDA、Dream 等扩散式大语言模型（dLLM）也催生了如 MMaDA、LaViDA、Dimple 和 LLaDA-V 等多模态模型。基于掩码（mask）离散扩散为多模态任务提供了一种重要的建模范式。

然而，生成模型的实现方式并不局限于上述两类架构，探索新的生成建模范式对于推动多模态模型的发展同样具有重要意义。

基于这一理念，来自香港大学和华为诺亚方舟实验室的研究团队提出了 FUDOKI，一个基于全新非掩码（mask-free）离散流匹配（Discrete Flow Matching）架构的通用多模态模型。

与传统的自回归方法不同，FUDOKI 通过并行去噪机制实现了高效的双向信息整合，显著提升了模型的复杂推理和生成能力。与离散扩散架构相比，FUDOKI 采用更加通用的概率路径建模框架，从均匀分布出发，允许模型在推理过程中不断更新和修正生成结果，为多模态模型打开了一条崭新的技术路径。

论文标题：FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities论文链接：https://arxiv.org/abs/2505.20147项目主页：https://fudoki-hku.github.io/统一架构：一套简单直观的框架搞定图像生成与文本理解彻底去掩码：无需掩码（mask）策略，与 mask-based discrete diffusion 相比更通用支持动态修正：生成过程可实时调整，更接近人类推理方式性能对标 / 超越同参数 AR 模型（在 GenEval & 多模态 QA 上有实测）

我们先来看以下两个效果展示：