摘要:今年6月,阶跃星辰首席科学家张祥雨在访谈中 谈及 了 他 在 近两年 模型训练中 遇到的 最大 困境 —— 多模态AI的内部,一直有一场“内战”。
今年6月,阶跃星辰首席科学家张祥雨在访谈中 谈及 了 他 在 近两年 模型训练中 遇到的 最大 困境 —— 多模态AI的内部,一直有一场“内战”。
具体 是 , 在 大一统多模态模型 训练 中 , 视觉的“理解”与“生成”能力 可以共存,却很少协作,甚至时常内耗 。 在 联合训练时,一方能力的提升 甚至 还 会导致另一方性能的下降 。
这和 我们 的 认知 完全 相反 。 对于 一个人 类 来讲 , 他 对 画面 的 理解 越深入 , 作画 也就可能 更 精妙 。 但在 多模态 模型中 , 理解 和 生成 , 二者之间没有形成有效的“信息增益”和“相互促进” 。
张祥雨 对此 作出的 解释 是 , 图像 生成 太复杂了 , 得有 极其复杂的空间规划、物理常识和语义推理。 而 Transformer模型虽然强大,但它在一次前向传播中能执行的逻辑推理步骤是有限的 。 你让它根据“画一个宇航员在月球骑方形轮子的自行车”这个指令,一次性生成符合所有物理、几何、语义约束的图像太难了。
而在训练过程中,因为这种单次推理,导致梯度信号太粗糙,训练出来的理解模型根本没法给生成 模型 有效指导,而反向亦然,生成模块的失败,也无法有效地帮助理解模块进步。
因此 张祥雨 给出的 解决方法 是 多模态 模型 应该 像语言推理一样,引入“思维 链 ” (Chain-of-Thought) 。 让 模型 分步骤地思考和创作 , 从而 规避掉 单次 推理 导致 的 信号 粗糙 问题 。
但最近,北大的一篇最新研究《理解与生成能真正互利,还是仅仅共存?》提出了一个名为UAE的全新框架,为这个问题提供了另一个解法。
附论文地址:https://arxiv.org/abs/2509.09666
张祥雨的思维链方案确实有其道理,但它主要解决的是单次推理的复杂度问题。而北大团队却发现了一个更根本的问题:理解和生成的训练目标本身就是割裂的。即使引入思维链,两个模块依然是在追求不同的KPI。
因此,UAE团队选择了一个更激进的路径:与其让模型分步思考同一个复杂任务,不如重新定义任务本身,让理解和生成成为同一个流程的两个环节。
01统一之路 : 从各自为政到 流水线 协作
要理解这篇论文的精妙之处,我们必须先弄清楚 统一多模态 模型 旧 方法 的根本问题所在。
旧 方法 就像“双头政治”下的无尽内耗 。
想象一个 工坊 里 有两个 大 师傅 ,我们称他们为“理解 工匠 ”和“生成 工匠 ”。
“理解工匠”的K PI 是 语义抽象的准确性 。他的任务是看懂一幅画,并用最精炼、最准确的语言概括出其核心内容 。 他需要忽略细微变化,抓住事物的本质和关系。 因此 要做好 这个 工作, 它 的 逻辑 是 从具体到抽象的认知过程。
“生成 工匠 ”的KPI 是 像素还原的保真度 。他的任务是根据指令画一幅画。他的工作成果会被放在显微镜下检查 。 因此 他必须极度关注细节、材质和物理世界的统计规律。 为了 足够 还原 , 它 的 逻辑 是从抽象到具体的构建过程。
在过去许多“统一模型”的尝试中, 研究者 们 都是 试图让同一个 模型 ( 拥有 同 一组核心参数) 去 同时 扮演这两个角色,并同时用这两套截然不同的KPI去考核他。
两个优化目标在底层逻辑上是相互冲突的,它们的梯度更新在模型的参数空间中互相拉扯,导致训练过程极不稳定,最终往往是两头都做不好,或者顾此失彼。
为了避免这种直接冲突,一些工作选择了“解耦”(decouple)的策略。 研究人员 先独立地把“理解官”和“生成官”都 单独 训练到顶尖水平,然后再建一个联络办公室(适配器模块)让他们进行有限的沟通。这种方式避免了内耗,也确实让模型同时具备了两种能力。
但这是一种“貌合神离”的统一,他们只是“共存”于同一个屋檐下,并没有形成真正的协同效应和相互增益。
而新方法则是在“流水线作业”下的共同目标
面对“双头政治”的困境,UAE框架的提出者们做出了一个根本性的变革: 废除两套独立的KPI,建立一条统一的流水线,并设立一个唯一的、最终的质检标准。
这个思想的核心, 源自经典的“自编码器”(Auto-Encoder)模型。
自编码器的逻辑很简单:它由一个编码器(Encoder)和一个解码器(Decoder)组成。编码器负责将输入的数据(如一张图片)压缩成一个紧凑的、包含核心信息的表示(通常是一个向量)。解码器则负责读取这个压缩表示,并尽力将它还原成原始的输入数据。
整个系统的训练目标只有一个:让还原后的输出与原始输入尽可能地相似。
UAE框架巧妙地将这个结构映射到了理解与生成的任务上 。
理解,即是编码(压缩工序) :在流水线上, 用 Qwen-2.5-VL 3B 训练的 “理解模型”扮演了编码器 的角色。他作为流水线的第一道工序。接收一张原始图像,然后将其所有关键的、可描述的语义信息,无损地“压缩”成一段详尽的、结构化的文字描述。这段文字,就是这张图像的核心信息表示。
生成,即是解码(还原工序) : 用 SD3.5-large 训练 的 “生成模型”扮演了解码器 的角色,是流水线的第二道工序。他接收上一道工序产出的文字描述,唯一的任务就是根据这段信息,将原始图像 “解压”并重建 出来。
这条流水线上,旧的矛盾被彻底化解了。 两位工匠有了一个共同的KPI:保证流水线终端产出的“重建图像”能够完美还原最初投入的原始图像。
为什么重构相似度是衡量统一性的好指标?
因为如果理解模块真的"懂"了原图,它的描述就应该包含所有关键信息 。 而 如果生成模块真的"懂"了描述,它就应该能重现原图的所有要素 。
所以 如果重构出的图像与原图高度相似,说明信息在理解→文本→生成这条链路上实现了近乎无损传递 。
设计出“流水线”这个全新的组织架构只是第一步。更关键的问题是:如何训练这条流水线上的两位工匠,让他们从新手成长为大师,并最终达成完美的默契?
UAE提出了一个名为Unified-GRPO的三阶段训练策略,实现了理解和生成的"左右循环,两向加强" 。
就像两个陌生人需要先建立基本的沟通默契一样,理解和生成模块首先需要在一个宽松的环境中建立初步的协作关系。
在这个阶段,系统会接收一张原始图像,由“理解模块”生成描述,再由“生成模块”重建图像。然后,直接根据重建图像和原始图像的语义相似度计算一个基础的损失,并用这个损失同时更新两个模块的参数。
这个阶段的目标很简单:确保生成模块能够从理解模块的输出中重构出语义上相近的图像,建立起基本的信息传递通道。
阶段二: 生成服务理解 , 重点训练“理解工匠”
岗前培训结束后,真正的专项训练开始了。这是“左右循环”的第一步,教练的目标是 把“理解工匠”训练成一个顶级的沟通者 。
训练流程如下:
1.冻结“生成工匠”:在这个阶段,“生成工匠”(生成模型)的能力被暂时固定住。他不再学习新技能,而是扮演一个水平稳定的“质量检验员”或“陪练员”。2.“理解工匠”反复试错:现在,“理解工匠”(理解模型)是唯一的学员。他会接收一张原始图像,然后尝试生成一段描述。3.陪练员执行:固定的“生成工匠”会接过这段描述,并尽其所能地去重建图像。4.教练打分:教练(强化学习算法)会比较重建出的图像和原始图像。进行奖励和惩罚。
通过成千上万次的循环, “理解工匠”被迫去学习如何生成对“生成工匠”最友好的描述 。这就是 “两向加强”的第一个方向:生成的结果,反过来加强了理解的深度和精度。
阶段三: 理解服务生成 , 重点训练“生成工匠”
当“理解工匠”经过特训,已经能稳定地产出信息极其丰富的描述后,循环进入第二步。现在,教练的目标是 把“生成工匠”训练成一个顶级的执行者 。
训练流程与阶段二正好相反 , 就是 冻结 理解 工匠 , 让 生成工匠 根据 描述 反复 重建 图像 , 优化 技艺 。
在这个阶段, “生成工匠”被迫去学习如何处理和执行长篇的、充满约束的指令 。这就是 “两向加强”的第二个方向:精深的理解,反过来加强了生成对复杂指令的遵循能力。
第二轮 和 第三轮 会 交替 进行 训练 , 这种交替训练形成了 一种 正反馈循环:理解越精准,生成越准确;生成要求越高,理解越深入 。 在后两个阶段中,UAE都是使用了GRPO算法 。
生成 与 理解 交汇 处 的 Aha Moment
通过 UAE 的 新方法 , 当这套“左右循环、两向加强”的训练体系运转起来后,模型的行为 确实 自发涌现出 了 利于 协同 的 行为 。 而且 , 在这些转折点上,理解模块都出现了类似人类的"顿悟时刻"。
比如 , 理解模 块 生成的文字描述,在没有任何外部指令的情况下,变得越来越长,越来越详细。 传统图像描述通常只有几个词,但UAE使用平均超过250个英文单词的详细描述。
在 训练早期 只有 简短描述,主要包含基本对象和颜色 , 但 到了 训练中期 则 开始包含计数、空间关系等信息 。 最终 , 训练后期 , 这个 模型 已经 可以详细 的 描述 系统性覆盖材质("针织毛衣")、遮挡关系("耳朵不可见")、背景细节("模糊的公园背景")、光照条件等 。
这背后有一个精妙的博弈机制 。
理解模块发现:描述越详细,生成质量越高,自己的奖励越多 —— 但 也 不是随便加词就有用,必须是对重构有帮助的细节 。
于是 , 它开始自动学习什么细节对生成最关键 。
而 生成模块为了利用这些丰富信息,也被迫提升长文本处理能力 。
研究者将UAE理解模型生成的描述,与其他知名模型(如Bagel, OmniGen2)生成的描述进行比较,并请了多个 顶尖 大语言模型(如GPT-4 o , Claude-4.1)作为裁判。 UAE的描述 在 完整性、属性绑定、关系和空间保真度 等多个方面都更胜一筹。
而 生成 方面 , U A E 更是 获得了 同意模型 SOTA 。 GenEval基准 上 UAE获得0.86综合得分,在统一模型中排名第一,特别是在需要精确理解的计数(0.84)和颜色归因(0.79)任务上表现突出。在更具挑战性的 复杂场景处理 GenEval++基准(包含三个或更多对象的复杂场景)中,UAE 也 获得0.475的最佳得分。
这个 结果 明确的 证明 了 : 当给定正确目标和训练方法时,AI系统能够自发发现更有效的信息表示和传递策略 。
03统一的系统, 需要一个 能 融合的 唯一 目标
UAE的 思路 虽然 看起来 很简单 , 但 对AI系统设计理念 的 转变 却 非常 有 价值 。
UAE的成功证明 了 , 多个看似冲突的目标可以通过合适框架实现融合协同 。这不是简单的"多任务学习",而是从根本上重新定义了任务目标。
这说明也许"重新定义目标"比"优化算法"更重要。有时候不是技术不够强,而是目标设错了 。
在这个例子里 , 通过 重设目标 , 相互竞争的任务可以变成互相促进的伙伴 。 这种思路可能适用于更多AI任务的统一 。
这场“内战” 的终结 ,或许预示着一个新时代的开启。在这个时代里,AI的“看”与“画”、“听”与“说”,将不再是割裂的能力孤岛,而是一个无缝协作、相互促进的有机整体 。
来源:晚晚的星河日记一点号