AI 绘画大变革?腾讯混元微调范式升级,于扩散轨迹全面优化

B站影视 内地电影 2025-09-16 18:53 1

摘要:在32块H20硬件上训练10分钟就能“定调”,微调后的FLUX1.dev模型,人工评出来的真实感和美学分数直接涨了3倍多。

2025年9月15日,量子位公众号发了篇报道,梦晨从“凹非寺”发来的消息说,腾讯混元搞出了AI绘画的新微调范式。

在32块H20硬件上训练10分钟就能“定调”,微调后的FLUX1.dev模型,人工评出来的真实感和美学分数直接涨了3倍多。

这事儿在AI绘画圈不算小,毕竟现在大家用扩散模型做图,总有些绕不开的麻烦。

现在扩散模型生成图像,虽然能靠奖励机制贴合人的喜好,但两个症结一直没解决好。

一个是优化步骤少,容易搞“奖励作弊”,就是模型为了拿高分,反而生成质量差的图,比如有的模型知道某个评分标准偏爱红色,就不管场景硬加红色调。

另一个更麻烦,想调出让人觉得好看的效果,还得离线改奖励模型,没法随时调整。

腾讯混元的团队就是盯着这两个问题,拿出了两套思路。

先说说解决全轨迹优化的Direct-Align,之前行业里不少方法,比如ReFL、DRaFT,都只能在扩散过程的最后几步做优化,为啥?

因为多步去噪的时候,梯度计算成本太高,早期步骤一反向传播就容易“崩”,也就是常说的梯度爆炸。

腾讯的团队先发现了个关键:扩散状态其实就是噪声和目标图像在“掺着走”,本质是种插值。

基于这个发现,他们先定了个噪声的“基准”,通过插值,不管在哪个时间步,都能直接恢复原始图像。

这种方法能不能覆盖早期步骤还不好说,后来看实验数据才放心,就算去噪只完成了5%,属于极早期阶段,Direct-Align也能把图像的粗略结构恢复出来。

这就解决了大问题:模型不用只盯着后期步骤,整个扩散轨迹都能优化。

之前只在后25%时间步训练的话,“奖励作弊”特别严重,现在全轨迹覆盖,模型就不会为了贴合评分标准乱改风格了。

在我看来,这步改进挺关键的,AI绘画最终是要服务实际需求,总不能为了分数牺牲画面本身的合理性。

解决了全轨迹的问题,团队又盯上了奖励信号的灵活性,毕竟就算能全阶段调校,要是改个风格还得等离线训练,实际用起来还是不方便。

传统方法常用多个奖励模型平衡偏好,但本质只是调了奖励的“尺度”,没真正对准优化方向,这次的SRPO(语义相对偏好优化),思路就不一样了,把奖励变成受文本控制的信号。

具体怎么做,对同一张图,模型会用正面提示词和负面提示词分别算奖励,再拿两者的差值当优化目标。

而且操作特别简单,不用加额外数据,就在原始提示词前加个控制短语,比如想让图更真实,加个“Realisticphoto”就行,在线就能调。

实验里,加了这类控制词后,真实感拉高了约3.7倍,美学质量也涨了3.1倍。

还有个有意思的发现,控制效果和提示词在奖励模型训练集中的出现频率有关,像“painting”这种高频词,效果就很直接,“Cyberpunk”这种低频词,得和其他高频词搭着用才管用。

SRPO最实用的地方在于降低了调整门槛,以前小团队想微调模型风格,可能得有专门的技术人员改奖励模型,现在运营或者设计人员加个提示词就能调,效率提了不少。

比如有广告公司用传统模型做家电宣传图,想让金属纹理更真实,得离线改半天奖励模型,现在用SRPO,加个“自然金属纹理”的提示词,几分钟就搞定了。

混元方案实验领先

当然,这些方法好不好用,最终还得看实验结果,团队在FLUX.1-dev模型上做了全面测试,对比了ReFL、DRaFT、DanceGRPO这些最新方法,SRPO在多个指标上都排第一。

不光是自动评分的AestheticScorev2.5、PickScore这些,人工评估更有说服力,10个训练有素的标注员加3个领域专家,评了500个提示词生成的图。

原来FLUX模型的真实感优秀率才8.2%,用SRPO训练后直接涨到38.9%,美学质量的优秀率也从9.8%升到40.5%。

更难得的是,它不会像DanceGRPO那样,虽然能提升美学质量,却容易加些不良伪影,比如过度的光泽感、明显的边缘高光,SRPO生成的图,纹理细节看着更自然。

还有个让人意外的点:只训练10分钟的FLUX.1-dev,在HPDv2基准测试上,表现居然超过了最新的开源版本FLUX.1.Krea。

腾讯混元这套微调范式,不只是技术上的改进,更贴近了实际应用场景的需求。

现在AI绘画在广告、游戏、影视这些领域用得越来越多,大家要的不只是“能生成图”,更是“能快速生成符合需求的好图”。

这套方法解决了“优化范围窄”和“调整不灵活”两个老问题,还降低了操作门槛,对中小团队尤其友好。

不过我也在想,后续要是能适配更多扩散模型就更好了,比如现在常用的StableDiffusion,那样覆盖的场景会更宽。

但不管怎么说,这次的升级已经给AI绘画的微调提供了新方向,从技术上解决实际痛点,才能让AI绘画真正发挥价值,而不是停留在实验室的数据里。

来源:墨史浅吟

相关推荐