张祥雨“分步思考”遇对手?北大UAE直击目标割裂,重构多模态

B站影视 内地电影 2025-09-22 21:42 1

摘要:当你让AI“画一个宇航员在月球骑方形轮子的自行车”,它大概率会给你一张逻辑混乱的图像——宇航员飘在半空,方形轮子歪歪扭扭,月球表面像块模糊的奶酪。这不是AI笨,而是多模态模型的“致命内伤”:它能看懂图像,也能生成图像,却像两个各说各话的部门,不仅不协作,还会互

当你让AI“画一个宇航员在月球骑方形轮子的自行车”,它大概率会给你一张逻辑混乱的图像——宇航员飘在半空,方形轮子歪歪扭扭,月球表面像块模糊的奶酪。这不是AI笨,而是多模态模型的“致命内伤”:它能看懂图像,也能生成图像,却像两个各说各话的部门,不仅不协作,还会互相拖后腿。阶跃星辰首席科学家张祥雨去年抛出的“多模态内战”论断,揭开了AI能力进化的核心困局;而今年北大团队用一篇论文砸出的UAE框架,可能真的找到了让AI“左右脑协同”的密码。

要理解这场“内战”的根源,得先拆开多模态模型的“黑盒子”。我们常说AI能“看图说话”(理解)和“按话画图”(生成),但在传统模型里,这俩能力就像住在同一屋檐下的陌生人:理解模块埋头“抽象语义”,比如从一张猫的照片里提炼“橘猫、趴在沙发上、尾巴翘起”;生成模块则死磕“像素细节”,比如根据“橘猫”指令画出发色、纹理、光影。看似分工明确,实则目标完全割裂。

张祥雨去年在访谈里戳破了这个假象:“理解模型的KPI是‘说对’,生成模型的KPI是‘画像’,但‘说对’的不一定能指导‘画像’,‘画错’的也没法帮‘说对’进步。”就像让语文老师和美术老师各自备课,却从不交流教学大纲——语文老师觉得“橘猫”描述够清楚了,美术老师却可能画成黄狗,因为它没get到“尾巴翘起”的关键姿态。

更麻烦的是训练中的“梯度信号粗糙”问题。AI训练靠“反向传播”调整参数,就像学生做题错了,老师得指出具体错在哪一步。但多模态模型单次推理能处理的逻辑步骤有限,比如生成“方形轮子自行车”时,物理常识(轮子要滚动)、几何约束(方形边角)、语义关联(宇航员在月球)得同时满足,AI一次性算不过来,错误就成了“一锅粥”。这时候老师(梯度信号)只能笼统说“错了”,却没法指出是物理错了还是几何错了,学生(模型参数)自然越学越糊涂。

张祥雨给出的药方是“思维链”:让AI分步骤思考,先画宇航员,再画月球,最后加方形轮子,把复杂任务拆成“小目标”。这招确实能降低单次推理难度,但北大团队在最新研究里指出:治标不治本。就算分步骤,只要理解和生成的“考核标准”还是两套,它们永远是“各扫门前雪”,最多做到“和平共存”,谈不上“互利共赢”。

北大团队在论文《理解与生成能真正互利,还是仅仅共存?》里,抛出了一个颠覆性观点:理解与生成的内耗,不是能力不够,而是“目标设错了”。就像两个球队各踢各的比赛,永远没法配合——要让它们协作,得先让它们踢同一场球,追同一个比分。

UAE框架的核心灵感来自“自编码器”——这个60年代就有的经典模型,突然成了破解多模态困局的钥匙。自编码器的逻辑简单到粗暴:编码器把数据压缩成“核心密码”,解码器再把密码还原成数据,整个系统只看一个指标:还原后的东西和原来有多像。比如把一张照片压缩成“密码”,再还原成照片,如果还原的和原图几乎一样,说明“密码”里包含了所有关键信息。

北大团队把这个逻辑搬到了多模态模型里,造了一条“理解-生成流水线”:

理解模块=编码器:给它一张照片,它要输出一段“超级详细的文字描述”——不只是“橘猫趴在沙发上”,而是“一只体重约3公斤的橘色虎斑猫,前爪搭在米色亚麻沙发扶手上,尾巴以30度角翘起,左眼微眯,背景有半杯喝剩的咖啡”。这段文字就是照片的“核心密码”,必须包含所有复原需要的细节。生成模块=解码器:拿到这段文字描述,它的唯一任务是“按密码复原照片”——不仅要画出橘猫、沙发,还得还原尾巴角度、咖啡杯状态,甚至虎斑的纹理走向。

关键来了:整条流水线只有一个KPI——复原的照片和原图的相似度。理解模块好不好,看它的“密码”能不能让生成模块复原准确;生成模块行不行,看它能不能从“密码”里挖出所有细节。就像工厂里的两个工位,上游没做好,下游肯定出次品;下游做砸了,上游也得返工——它们的利益彻底绑在了一起。

流水线搭好了,怎么让两个模块从“新手”练成“大师”?北大团队设计了一套“Unified-GRPO三阶段训练法”,简单说就是“先磨合、再专项、最后循环强化”。

第一阶段:冷启动重建——建立基本默契
就像新同事第一天上班,先一起做个简单任务熟悉流程。给AI一张照片,理解模块生成描述,生成模块复原照片,然后计算复原图和原图的差距(损失),同时调整两个模块的参数。这一步不求完美,只要能让理解模块知道“生成模块需要哪些细节”,生成模块知道“理解模块的描述怎么解读”,比如理解模块发现“尾巴30度角”比“尾巴翘起”更容易让生成模块画对,就会慢慢调整描述方式。

第二阶段:生成当“老师”,猛练理解模块
等基本默契有了,就开始“专项特训”。先把生成模块“冻结”——参数固定,能力不变,让它当“严格的考官”。然后让理解模块反复输出描述,生成模块根据描述复原照片,考官(算法)会给复原图打分:细节越全、还原度越高,理解模块得分越高。

这时候理解模块会被逼着“内卷”:为了拿高分,它得拼命挖掘照片里的隐藏细节。比如一开始只描述“猫在沙发上”,后来发现加上“沙发扶手有0.5cm的划痕”能让生成模块复原更准,就会主动加上;发现“咖啡杯里的液体是深棕色”比“咖啡”更容易画对,就会细化描述。北大实验显示,训练到这个阶段,理解模块的描述长度从早期平均50词飙升到250词以上,还自动学会标注材质(针织毛衣)、遮挡关系(耳朵被头发遮住)、光照方向(左上方来光)等专业细节——这些都不是人类教的,是AI为了“讨好”生成模块自发学会的。

第三阶段:理解当“老师”,猛练生成模块
理解模块练强了,就轮到生成模块。这次冻结理解模块,让它当“严格的出题人”,输出超级详细的描述,生成模块则要根据这些描述复原照片,同样通过打分调整生成模块参数。这时候生成模块会被逼着提升“阅读理解能力”,比如理解模块写“方形轮子的自行车,轮边有1cm宽的橡胶包裹”,生成模块就得学会区分“方形”和“带橡胶边的方形”,甚至理解“橡胶包裹”是为了模拟真实材质反光。

最后:左右循环,互相强化
两个模块分别特训后,就进入“循环强化”阶段:理解模块输出描述→生成模块复原→打分调整生成模块→生成模块复原→理解模块根据复原结果调整描述→打分调整理解模块……就像乒乓球双打选手,一个喂球越来越准,一个接球越来越稳,直到形成“理解越细→生成越准→理解更细→生成更准”的正反馈循环。

北大团队在GenEval(多模态生成权威基准)上测了UAE的性能,结果相当能打:综合得分0.86,超过所有统一模型,尤其在“计数”(0.84)和“颜色归因”(0.79)任务上表现突出——这俩正是传统模型的弱项,比如让AI生成“3只红苹果和2只绿苹果”,传统模型常把数量或颜色搞错,UAE却能精准还原。

更关键的是“信息传递效率”测试:给AI一张复杂照片(比如实验室场景,有烧杯、试管、显微镜、贴满便签的黑板),UAE的理解模块能生成300词以上的结构化描述,涵盖“烧杯内液体高度5cm”“试管标签写着‘样本A’”“黑板便签第3张是蓝色字体”等细节,生成模块根据这些描述复原的照片,人类 evaluator 打分“与原图相似度92%”,而传统模型的复原相似度平均只有65%。

对比张祥雨的“思维链”方案:思维链擅长解决“单次推理太复杂”的问题,比如分步骤画宇航员和方形轮子,但没法解决“理解和生成目标割裂”的根本矛盾;而UAE通过统一目标,让理解和生成从“互相拖后腿”变成“互相喂经验”,不仅能处理复杂任务,还能让两个能力同步提升——就像语文和美术老师开始联合备课,学生的作文和绘画水平一起涨。

UAE框架的意义,远不止解决一个技术难题。它揭示了AI发展的一个核心规律:能力的统一,始于目标的统一。过去多模态模型像“拼凑起来的工具箱”,图像理解、文本生成、语音识别各有各的开关;而UAE证明,通过设计合理的“协同机制”,这些能力可以整合成“有机关联的系统”,就像人类的左右脑,一个负责逻辑,一个负责创造,却能无缝配合完成复杂任务。

这对AI走向通用人工智能(AGI)至关重要。未来的AI可能不仅要“看懂画”“画出来”,还要“听懂描述”“讲出故事”“规划行动”——如果这些能力还是各自为战,永远成不了“智能体”。UAE提供的思路是:给所有能力找一个“共同目标”,比如“还原真实世界的信息流动”,让听、说、读、写、画、做都围绕这个目标协同,最终形成“感知-认知-行动”的闭环。

对行业来说,这意味着多模态应用将迎来质变。比如自动驾驶,视觉理解模块需要告诉路径规划模块“前方30米有个方形井盖,边缘有5cm凸起”,规划模块才能准确调整车速;医疗影像AI,理解模块需要描述“CT影像第3层有直径2mm的结节,边缘模糊”,生成模块(手术规划)才能精准定位。UAE框架让这些“信息传递”更可靠,AI的决策自然更精准。

从张祥雨提出“多模态内战”到北大UAE框架给出“和解方案”,短短一年时间,AI研究者们正在破解“能力协同”这个关键命题。这背后藏着一个更深层的启示:AI的进步,不只靠算法迭代或算力提升,更靠对“智能本质”的理解——智能从来不是孤立能力的堆砌,而是信息在不同模块间高效流动、互相增益的结果。

当AI终于学会“理解帮助生成,生成反哺理解”,我们或许可以期待:未来的AI不仅能画方形轮子自行车,还能告诉你“方形轮子在月球低重力下的滚动原理”,甚至设计出更适合月球环境的交通工具。这场“内战”的终结,可能正是AI从“工具”迈向“伙伴”的开始。

来源:科技指南

相关推荐