让AI更懂你:腾讯混元新范式,刷新AI绘画的真实感与美学力

B站影视 内地电影 2025-09-16 17:26 1

摘要:AI绘画最近几年已经从“看得懂”进化到了“看得还行”,但总隔着点什么。要么画面真实感差点意思,要么风格美学不稳定,更别提有时候为了拿高分,模型反而画出脱离现实的“高分低感图”。腾讯混元团队最近提出的新方法,正好解决了这一痛点。

AI绘画最近几年已经从“看得懂”进化到了“看得还行”,但总隔着点什么。要么画面真实感差点意思,要么风格美学不稳定,更别提有时候为了拿高分,模型反而画出脱离现实的“高分低感图”。腾讯混元团队最近提出的新方法,正好解决了这一痛点。

他们把优化范围从扩散过程的最后一段,扩展到整个扩散轨迹;同时,奖励机制也不再像过去那样“死板”,而是变得更聪明、更柔性。用他们自己的话说,这一波升级,是AI绘画迈向“更懂你”的关键一步。

当前主流的扩散模型,虽然能通过奖励函数训练生成更贴近人类审美的图像,但普遍存在两个大问题:

优化范围太局限:现有方法通常只在扩散的后几步进行优化,因为早期噪声太重,梯度传播容易出问题,训练成本也高;奖励机制容易被“黑”:模型会钻奖励函数的空子,为了高分而生成“看起来好但本质差”的图。

比如,有些评分机制偏好红色调或者高对比度,模型就为了拿分疯狂堆这些视觉元素,结果图像看起来“怪怪的”。

为了打破只能后期优化的限制,腾讯混元团队提出了Direct-Align方法。

这个方法的核心思想是:

预定义一个“噪声先验”,让模型可以在扩散的任何阶段,通过插值方式恢复原始图像。

也就是说,早期“满是噪声”的状态,不再是盲区。模型可以在整个扩散轨迹中进行优化,哪怕只到了5%的进度,也能构建出图像的粗略结构。

结果是啥?
不仅训练更高效,最重要的是:避免了模型只在最后几步“刷分”,从源头上减少了“奖励作弊”的空间。

另一个关键创新是语义相对偏好优化(SRPO)

简单说,SRPO把奖励信号变成了由提示词控制的相对评分机制。再通俗点说,就是你告诉模型“我更喜欢真实的照片风格”,它就会自动优化生成方向,甚至不需要额外的数据或模型。

具体做法是这样的:

给一张图像分别加上正面和负面的提示词,比如“Realistic photo”和“Cartoon”;然后计算两者的奖励差值,作为新的训练目标;最终,模型就学会了向你喜欢的方向靠拢。

实验很惊艳:
在FLUX1.dev模型上,经过SRPO优化后,图像的真实感评分提升了3.7倍美学评分也提高了3.1倍。而且,这一切只用32块H20显卡训练10分钟就能完成模型收敛。

更有意思的是,SRPO还支持风格控制,比如:

想让图像更亮?加上“Bright lighting”;想要漫画风?加上“Comic book style”。

控制词的效果还跟它在奖励模型训练集中出现的频率有关。像“painting”这种高频词,控制力就很强;“Cyberpunk”这种冷门词,可能需要搭配别的高频词使用。

研究团队用目前主流的评估体系验证了新方法的效果:

在3200个提示词上测试,SRPO在Aesthetic Score v2.5、PickScore、ImageReward等多个自动指标上均为最优;人工评估也不含糊:10个标注员 + 3名专家,对500个提示词生成图像评分,SRPO模型的真实感优秀率从8.2%飙升到38.9%美学优秀率从9.8%提升到40.5%

相比之下,其他方法虽然也有提升,但常常伴随明显的伪影,比如过度光泽、边缘发白等问题。

SRPO不仅画得更好看,还画得更自然。

这次腾讯混元团队的突破,不只是让AI画图更“听话”,更关键的是给了人类更多掌控权。

你想要什么风格?一句提示词就能调整。你不想被“奖励作弊”坑了?从源头优化就能解决。

AI绘画的下一步,不再是“AI画得多像”,而是“AI画得多懂你”。

真正的好模型,不是自己画得多好看,而是你说一声,它就知道怎么做。这,是AI绘画正在走向的未来。

来源:亓钦

相关推荐