摘要:2025 年 3 月 26 日,OpenAI 凌晨官宣,GPT-4o 的原生多模态图像生成功能正式上线。用户不再需要登录 OpenAI 的文生图模型 DALL-E,可以直接在 ChatGPT 应用里调用 4o 生成、修改图片。
一夜之间,AI 生成的吉卜力图像在 X 等社交媒体上疯传,互联网被一场温柔的二次元画风浪潮淹没。人们上传自拍照,输入 " 吉卜力风格 ",几秒后,宫崎骏动画中的唯美与梦幻便流淌在发丝衣角间,甚至连 OpenAI 创始人奥特曼也晒出自己的吉卜力头像,为这场热潮添了一把火。
原来,人们用 Midjourney 生图时,仍面临着一个致命问题:随机性太强,在提示词过于复杂的时候,细节还原度就会显著降低,而 GPT-4o 控图能力的跃升,让人类第一次感受到了与 AI 艺术家在多轮对话中精准改图的魅力。
那么,一个人类印象里只会聊天的通用大模型 GPT-4o,是如何赶超文生图领域专业选手 Midjourney 的呢?
一是自然语言对话能力的提升大大降低了使用门槛。传统文生图领域,用户必须掌握一套复杂的结构化提示指令,比如风格、镜头、色彩、角度、背景、主体等,差之毫厘、谬以千里。而 GPT-4o 可以精准理解自然语言命令,只需要像跟好友一样交流,张嘴画图成为现实。
自然语言就是大白话,日常生活中的口头语。比如,如果你需要一张瀑布图,只需要告诉 GPT-4o," 帮我生成一幅清晨茂密森林里的彩虹瀑布 " 就可以了。但面对 Midjourney 就需要像下图一般,用高度结构化的 prompt 指令告诉它:这个图像的主体有什么,背景是什么颜色,仰角、俯角还是平视,风格是油画、古典或者赛博朋克,需要细分到这种程度才可能达到理想效果,但就算分得这么细了,依然会有一些无关紧要的画面元素跳出来画蛇添足。
GPT-4o 的强悍就在于用户可以随便上传一张图片多次修改,可以是 AI 生成的,也可以是自己拍的。比如,你可以上传一张全身照,把头型换成大波浪,把衣服换成购物车里的裙子看上身效果。它支持在现有的图片上去 p 图去修改,相当于我们不用学习 PS 这种具有高壁垒性质的修图技术。
更牛的是它还可以多轮对话,支持在原图上不限次数地一直改,直到满意为止。你可以一会儿改一个头发,一会儿把背景换成沙漠,或者一会儿调整滤镜风格。只要你想,它便满足。
除了交互门槛的降低和控图能力的提升,GPT-4o 的跨学科知识储备也让人惊艳。集成了大语言模型原有知识库的 GPT-4o 相当于一个知天文、晓地理的画家,不仅能解高数、做物理题,还原建筑草图也不在话下。相比之下,Midjourney 作为垂类应用始终局限在艺术领域里,为电影宣发、广告等文娱产业服务。
GPT-4o 有多牛?给一个题目就可以生成函数图像,相当于一款画图指导版的拍照搜题应用。甚至于你给他一个没有任何色彩的铅笔画建筑草图,它都能生成出施工后的房屋实景,完全跨越了学科的边界,是一个文理双全的全能型选手。
既然 GPT-4o 生图改图功能如此惊艳,我们就要发问了,在其火爆出圈背后,能够为普通人带来什么实际价值呢?
那么,GPT-4o 为什么这么火,给我们带来的一个最实际的价值点在哪里?
首先,它真的做到了应用零门槛,用户甚至不需要任何艺术功底和 AI 基础,毫无基础的普通人也能直接上手。用 Midjourney,你必须知道一些基本的流派、色彩、光学、框架等绘画知识以及 /imagine(生成图像)、--ar(图像宽高比)等基础英文提示指令。但用 GPT-4o,你也可以不懂透视、框架、光线,也不需要知道什么是结构化提示词,完全不用任何专业基础,就像跟朋友对话一般交流就可以修图。
除了使用门槛降低,模型产品的质量和效能也大幅提升。一是生图更快,以前用 Midjourney 解析复杂指令需要 1min 左右,GPT-4o 在 20s 内就可以还原。
第二,生图和改图的控制性提高了,GPT-4o 能够完全还原你给它的指令。比如同样的一个指令 " 给我生成一个猫猫和狗狗在草地里玩耍的场景 ",GPT-4o 生成的就是一只猫和一只狗在草地上玩,没有任何其他会突然冒出的元素,但 Midjourney 可能在草坪上多一个公园或建筑,不会完全按指令来。通俗地讲,就是 GPT-4o 更能听你的人话了,它就像你的电子仆人一样,你让他干嘛,他就干嘛,多余的事一件不做,该做的事也绝不少干,精确度更强了。
由此,GPT-4o 打开全民赛道,进入到我们工作场景里。之前,普通用户用 Midjourney 更多还是出于兴趣,娱乐属性强、工具属性弱。生成的油画、动漫等各种风格的图像虽好看,但既不能提升工作效率,也不能赚钱,主要起到了一个造型上的作用。
我们都知道,Midjourney 是一个架构在模型上的应用,但 GPT-4o 本身就是一个模型,生图是它的能力之一。2022 年刚出道的 ChatGPT 只是一个能够文字交流的对话助手,后来可以语音打电话,现在又能画图,一直不停在不同维度上迭代升级。
而这或许才是人类发明 AI 的终极目标——让技术普惠到每一个角落。
来源:雷霆战神王