摘要:要说现在AI界的网红,多模态模型肯定算一个,能认图能说话,乍一看挺全能,但细究起来全是槽点,比如你让它画“一只黑色的猫和白色的狗”,它可能画成猫穿白衣服狗穿黑衣服;你说“黄色西兰花”,它大概率还是给你绿油油的一团。
要说现在AI界的网红,多模态模型肯定算一个,能认图能说话,乍一看挺全能,但细究起来全是槽点,比如你让它画“一只黑色的猫和白色的狗”,它可能画成猫穿白衣服狗穿黑衣服;你说“黄色西兰花”,它大概率还是给你绿油油的一团。
为啥?浙江大学竺可桢学院的谢集和团队最近琢磨明白了:这事儿跟“信息不对等”有关。
图像是“话痨”,颜色、位置、纹理啥都有;文字却是“哑巴”,描述时漏这漏那,传统AI训练就像让学生只看简笔画学画画,难怪生成时总跑偏。
比如模型老觉得“西兰花=绿色”,不是它笨,是训练时没见过黄的,那些文本描述压根没写颜色可能变,这就是“稀疏监督”的坑。
谢集他们想了个野路子:既然文字说不清,那就让图片自己教自己,他们搞的RecA(重建对齐)技术,本质是给AI开小灶,不用额外标数据,直接拿原图当“提示词”,让模型先看懂图,再学着把图“复述”出来。
具体咋操作?举个栗子:模型先拿CLIP这类“翻译官”把图片转成语义信号,再和一个固定文本模板“混搭”,最后让模型根据这堆信号还原原图。
生成的图和原图差多少,就按这个差距调整参数,这波操作就像让AI照着镜子练画画,练着练着就摸清了图像细节咋表达。
关键是,这训练不用人工标数据,一堆未标注的图扔进去就行,推理时还不增加负担,纯纯的“性价比之王”。
团队拿四个主流模型做实验:Show-o、Harmon、OpenUni、BAGEL,结果RecA全给“拔高”了一遍。
比如Harmon模型,没用GPT-4o数据就把GenEval指标干到0.86,用了BLIP3o数据后直接冲到0.90,DPGBench从87.21涨到88.15,刷新了行业记录。
更猛的是BAGEL在图像编辑上的表现:ImgEdit评分从3.38飙到3.75,GEdit从6.94提到7.25,直接把BlackForestLabs的FLUX.1Kontext甩在身后。
有同行看完实验数据直嘀咕:“这哪儿是后训练,分明是给AI开了‘透视眼’,把图像细节全摸透了。”
现在这技术已经开源了,代码和项目主页都挂网上了,说实话,RecA的意义不止于让AI画出黄色西兰花,工业质检里那些靠人眼难辨的纹理缺陷,医疗影像里需要精准还原的病灶细节,以后可能都能靠这技术搞定。
当多模态模型真正打通“看懂”和“画对”的任督二脉,说不定下一个爆火的AI应用,就藏在这些细节里。
来源:云娱云己