摘要:不用多说,最近最出圈的就是GPT-4o生图了。比GPT-4o早推出的Gemini的生图能力虽然也很强,但是在生图效果上还和一些SOTA的文生图模型存在差距,而GPT-4o补齐了这个短板,在生图质量上已经能达到SOTA水平。我个人觉得GPT-4o生图算是视觉生成
以下文章来源于AI小小将 ,作者AI小将
不用多说,最近最出圈的就是GPT-4o生图了。比GPT-4o早推出的Gemini的生图能力虽然也很强,但是在生图效果上还和一些SOTA的文生图模型存在差距,而GPT-4o补齐了这个短板,在生图质量上已经能达到SOTA水平。我个人觉得GPT-4o生图算是视觉生成领域又一个新突破,未来单独的文生图的意义已经不太大了。图像生成未来会朝着这种统一的多模态模型或者原生多模态发展了,今年无论是开源社区还是其他大厂,应该都会陆续推出类似的模型。受限于算力,视觉生成短期内不会受到太大的冲击,但是这也是未来的必然趋势。
从最早的DALL-E,到今天的GPT-4o,OpenAI始终引领着视觉生成的发展,这点毫无争议,而谷歌其实也贡献了很多,包括Imagen以及Gemini。
这里,我也想简单回顾一下视觉生成发展中一些里程碑事件:看历史,是更好的展望未来!
OpenAI在2021年发布DALL-E,这是一个基于自回归的文生图模型,采用dVAE将图像压缩成离散的tokens,然后使用一个autoregressive transformer生成视觉tokens,再解码成图像。
虽然DALL-E给大家带来了一定的震撼,但是生成图像的效果其实还比较一般。反而是和DALL-E同期的工作CLIP引起了大家更大的关注,不过CLIP确实后面对视觉生成也起到了很大作用。
在2021年底,OpenAI放出了基于扩散模型架构的GLIDE,当架构从自回归变成了扩散之后,生图的质量有了明显的提升。
与GLIDE同期的一个工作还有Latent Diffusion,这个是Stable Diffusion的奠基之作,但并不是SD,而是LDM。不过呢,我想大部分人都是在SD火之后才关注到LDM这个工作。LDM和GLIDE的一大区别是:前者是采用一个autoencoder将图像压缩成低维度的latents,然后用扩散模型生成latents,最后autoencoder再解码出来图像;而后者是直接用扩散模型生成图像的pixels,但是由于高分辨率图像pixel空间维度太大,所以一般是采用逐级生成,对于GLIDE,是先生成64x64图像,然后再接一个64x64->256x256的超分来生成256x256图像。SD火之后,LDM这种更高效的架构成为主流。
不久之后,OpenAI在2022年4月推出了DALL-E 2,DALL-E 2可以生成1024x1024高分辨率图像,生成质量上了新的高度,DALL-E 2也成为了OpenAI第一个上线的生图模型。
DALL-E 2和GLIDE一样是扩散架构,之所以能生成1024x1024图像,是因为有两个超分:64x64 -> 256x256 -> 1024x1024。另外,DALL-E 2和GLIDE在64x64生图上架构上有所区别,DALL-E 2采用了prior + decoder的架构,其中prior是一个用文本来生成CLIP image embedding(可以用自回归也可以用扩散),而decoder是用将CLIP image embedding(加上文)转成图像(是一个扩散模型),这和CLIP是反过来的,所以也叫unCLIP。DALL-E的作者还写了一个简单的博客:How DALL·E 2 Works,感兴趣可以去看看。
DALL-E这种两阶段的生成,有一个好处是你可以不用prior,直接拿图像对应的CLIP embedding来生成图像的变种:
谷歌紧跟其后,在2022年5月份发布了Imagen,Imagen在架构上采用一个生成64x64图像的扩散模型以及两个超分扩散模型,和DALL-E 2一样可以生成1024x1024图像,但是文本指令跟随能力更强,也能写字。Imagen采用了T5作为文本编码器,因为谷歌发现T5要比CLIP要好。
而在22年6月份,谷歌的另外一个团队发布了Parti,这和DALL-E一样都是自回归架构,而且谷歌直接把模型参数做到了20B,来了一个大力出奇迹,直接刷到了SOTA。
Parti之后,我又觉得自回归杀回来了。但是在22年8月份,LDM团队开源了Stable Diffusion 1.4,SD后面越来越火,扩散模型成为了文生图的主流架构。
22年下半年,SD团队又陆续开源了SD 1.5、SD 2.0以及SD 2.1。SD的生态也慢慢发展起来,包括LoRA以及后面的ControlNet等插件。
另外,Midjourney V4也在22年底发布,Midjourney的生图美感一直是大家的天花板。
23年6月,SD团队又发布了SDXL,更大的模型,更好的策略,而且SDXL可以生成1024x1024图像。虽然SDXL相比SD 1.5有明显提升,但是我觉得指令跟随提升有限。
真正革命的还是OpenAI在23年8月份发布的DALL-E 3,DALL-E 3架构上采用T5+LDM,这没啥新颖的地方,但是DALL-E 3将文生图的指令跟随能力提升到了一个新台阶,这里的秘诀就是采用caption模型来合成更详细的文本描述,虽然简单,但是很有效。当然也是因为VLM发展起来了,比如OpenAI在23年4月份就推出了带视觉理解能力的GPT-4。后面的文生图模型,基本都follow DALL-E 3的做法,来通过合成高质量caption来提升生图的指令跟随能力。
2023年底,谷歌发布了新一代大模型Gemini,Gemini是谷歌拿来对抗ChatGPT或者说GPT-4的大模型。不过呢,Gemini是一个原生多模态模型,这里的原生更多强调的是Gemini是采用多模态数据(文本、图像、语音以及视频)从头开始训练,而不是像很多VLM模型在LLM基础上微调的。
The Gemini models are natively multimodal, as they are trained jointly across text, image, audio, and video.
而且谷歌证明了Gemini这种直接联合多模态数据训练,可以在各个模态任务上取得很好的性能。
One open question is whether this joint training can result in a model which has strong capabilities in each domain – even when compared to models and approaches that are narrowly tailored to single domains. We find this to be the case: Gemini models set a new state of the art across a wide range of text, image, audio, and video benchmarks.
而且,Gemini除了支持多模态数据(文本、图像、语音以及视频)作为输入,而且也支持输出图像(后面的Gemini也支持了输出语音)。
在架构上,Gemini采用一个统一的transformer decoder,其中视觉输入编码参考谷歌之前的工作Flamingo、CoCa以及PaLI,这三个工作其实都是采用ViT来编码视觉的连续特征,但是区别在于Gemini一开始训练就是多模态的,而且可以输出离散的图像tokens,类似DALL-E和Parti。这里唯一明确的是Gemini的图像生成一定是基于视觉离散token的自回归,这样和文本生成是统一的,但是对于视觉理解,是不是也采用离散特征,就不可知了。
虽然谷歌没有特别宣传Gemini的图像生成能力,但是在技术报告中谷歌也展示了Gemini生成图像的两个例子,一个1-shot learning,当输入一个图文交替的示例后模型也能成功生成类似的图文交替的输出序列。另外一个例子是生成文本与配图紧密关联的博客文章。
虽然例子没那么惊艳,但是第一代Gemini已经展示了这种原生多模态模型能够生成单独文生图所无法完成的图像生成能力。后面的Gemini 2.0以及GPT-4o的图像生成能力,才真正将这种架构的优势呈现出来。
在2023年底,谷歌还发布了Imagen 2,谷歌是参考DALL-E 3增强了训练图像的文本描述,在架构上Imagen 2也是扩散模型,猜测可能也是latent diffusion。
时间来到2024,OpenAI在2月中旬,又拿出了一个革命性的模型:视频生成模型Sora。Sora之前,视频生成模型生成的视频基本是不可用的状态,而Sora将视频生成质量提升到了一个产品可用级别。在架构上,Sora首次采用diffusion transformer(DiT)应用在视频生成上,并验证了通过模型scaling可以提升质量。
Sora的发布直接带火了视频生成赛道,后面也出现越来越多的视频模型,比如快手的kling、Runway的Gen-3以及谷歌的Veo等。
在2月底,StabilityAI也终于发布了SD 3,SD 3和DALL-E 3一样采用合成的caption提升了模型的文本指令跟随能力,而且采用T5和CLIP作为文本编码器,在模型架构上采用了DiT(改进的MMDiT),扩散方法也从DDPM切换成Flow Matching。开源社区终于有DALL-E 3级别的模型了,虽然在6月份StabilityAI才开源2B的SD 3 Medium。
在2024年4月,OpenAI也终于拿出了和Gemini一样的原生多模态模型GPT-4o,GPT‑4o(“o”代表“omni”,意为“全能”)是实现更自然的人机交互的重要一步——它能够接受文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像的任意组合作为输出。相比Gemini,GPT-4o可以实时输出语音。OpenAI也展示了GPT-4o的图像生成例子,效果比Gemini要惊艳,但是OpenAI一直没有对外放出这种图像生成能力。无论是Gemini还是GPT-4o都只是展示例子,所以当时的我觉得这种能力没那么稳定。
在8月份,StabilityAI核心技术团队出走并成立了新的创业公司Black Forest Labs,同时发布了最新的文生图模型Flux,Flux可以看作是SD 3的升级版,但是在效果上超过其他文生图模型,成为了SOTA。而且Flux也以非商用协议开源,后面逐渐替代SD成为开源社区最受欢迎的文生图模型。
在2024年底,OpenAI终于开放了Sora,但是Sora已经不是视频生成的SOTA。
而谷歌也发布了视频生成模型Veo 2以及图像生成模型Imagen 3,效果直接SOTA。
谷歌同时也在年底发布了Gemini 2.0,或者说Gemini 2.0 Flash,2.0 Flash 除了支持图像、视频和音频等多模态输入外,还支持多模态输出,例如与文本混合的原生生成图像以及可调节的多语言文本到语音(TTS)音频。这次,谷歌重点提到了Gemini 2.0 Flash的原生生成图像能力,包括文生图、生成图文交织、以及图片编辑等能力。
但Gemini 2.0 Flash的原生生成图像能力也没有立刻对外开放,直到今年3月份,谷歌终于开放了Gemini 2.0 Flash的图像生成能力,Gemini 2.0 Flash不仅可以实现文生图,也可以利用世界知识和增强推理能力来生成正确的图像,这是单独文生图模型无法做到的,而且Gemini 2.0 Flash还支持图像编辑,以及生成交织的图文。我们终于第一次体验到了原生多模态模型所能实现的图像生成能力,虽然图片生成效果还达不到SOTA的文生图模型,但是让大家看到了新的未来。
效果炸裂!谷歌开放Gemini 2.0 Flash的原生图像生成能力!
OpenAI紧跟其后,也在3月份了放出了GPT-4o的图像生成,相比Gemini 2.0 Flash,GPT-4o的图像生成达到了更好的水准,基本能对齐基于扩散的SOTA文生图,但可以做到更好的图像编辑等各种能力,图像生成终于迎来了新的拐点。
阻击谷歌的Gemini!OpenAI深夜放出GPT-4o的生图能力!
未来,原生多模态模型将是视觉生成新的战场。
最后,我想简单谈一下Gemini 2.0 Flash和GPT-4o的图像生成的架构,虽然两者都没有公布技术细节。对于Gemini 2.0 Flash,我更倾向于它采用和Gemini一样的基于离散视觉tokens的自回归生成,所以在生成质量还有所欠缺。而对于GPT-4o,按照系统卡所说,它也是基于自回归架构,区别于扩散模型。
不过呢,OpenAI给出的生成图片例子也揭秘4o的图像生成是结合了扩散模型,很可能是自回归生成的视觉特征,用一个扩散模型作为decoder来解码,这也是为啥4o生图能做到很高质量。
而且,大家通过前端分析,发现4o生图确实会返回多个图片,应该是模型中间结果,对比中间结果,4o生图整体上确实是自上而下的自回归生成。而且4o最后的图片会进一步增强细节,这可能是最后阶段加了diffusion的解码来提升质量。
后面,可能需要社区一起来更多的揭秘4o的图像生成技术细节。
参考
^https://arxiv.org/abs/2102.12092^https://arxiv.org/abs/2112.10741^https://arxiv.org/abs/2112.10752^https://arxiv.org/abs/2205.11487^https://arxiv.org/abs/2206.10789^https://github.com/CompVis/stable-diffusion^https://arxiv.org/abs/2307.01952^https://openai.com/index/dall-e-3/^https://blog.google/technology/ai/google-gemini-ai/^https://deepmind.google/technologies/imagen-2/^https://openai.com/index/video-generation-models-as-world-simulators/^https://stability.ai/news/stable-diffusion-3^https://stability.ai/news/stable-diffusion-3-medium^https://openai.com/index/hello-gpt-4o/^https://blackforestlabs.ai/announcing-black-forest-labs/^https://openai.com/index/sora-is-here/^https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024^https://developers.googleblog.com/en/experiment-with-gemini-20-flash-native-image-generation/^https://openai.com/index/introducing-4o-image-generation/来源:人工智能学家