摘要:距离OpenAI正式发布GPT-4o生图功能(2025年3月25日),已经过去两周多了。这段时间里,“ChatGPT-4o颠覆了AI图像生成的逻辑”这句话大家应该都听腻了。但说实话,因为区域限制、付费制这些门槛,真正能上手用一用的朋友可能并不太多。
新增3场私域大佬的闭门会!
距离OpenAI正式发布GPT-4o生图功能(2025年3月25日),已经过去两周多了。这段时间里,“ChatGPT-4o颠覆了AI图像生成的逻辑”这句话大家应该都听腻了。但说实话,因为区域限制、付费制这些门槛,真正能上手用一用的朋友可能并不太多。
不过,在GPT-4o生图功能上线后的第一周,见实就组织了一场深度体验分享直播。邀请到了铭文鼎成科技创始人陈一铭,他直接拿出了23个不同行业、不同场景的具体案例,分享了使用心得和优化技巧。
从这些案例来看,GPT-4o生成的电商产品主图已经达到了商用品质,基础场景下基本不用再改了,但要是涉及到精细细节,那还是得人工调整一番。
具体来说,GPT-4o在以下几个方向表现较好:产品方向,比如模特背景替换、指定元素替换;渲染方向,比如图片上色、空间渲染、风格化等。
但GPT-4o在以下方面表现一般:连续性的主体一致性、精细化输出、场景细节识别等,这些方面还是有一些不完美的地方。
陈一铭在直播中分享了大量实操细节和思考,直播回放已上传到见实资料库了,供见实会员随时下载学习。也欢迎新朋友文末订阅会员,获取这些资料,及享有更多专属权益。以下是对这场直播的回顾(第一人称),如下,enjoy:
陈一铭,铭文鼎成科技创始人
先说说“ChatGPT-4o是怎么颠覆传统AI图像生成逻辑的?”
以前我们要是想用AI生图,得先学各种AI工具,研究素材排版、结构,设计工作流,还得反复调整节点参数。现在用GPT-4o,只需要用简单的自然语言,把素材丢给它,告诉它你想要的效果,它就能直接生成。
继续看看GPT-4o的基础生图能力。
我们准备好一套儿童衣服,然后输入自然语言:“让一个10岁的小男孩,站在校园里,穿着这身衣服。”大概一分钟左右,GPT-4o就能生成。
假设我们需要换一个模特,也不用重新提交复杂的生图指令,依然可以用自然语言搞定。比如“换一个同龄的女生,重新穿上这身衣服”,它就能满足需求。以前我们做电商服装,成本较高,但现在用GPT-4o,成本大大降低了。
所以,GPT-4o主要两个方面的能力:一是理解自然语言,二是可以进行上下文结合理解。
现在有一套装备,包括上装、下装、手表和帽子。我们用自然语言指定地域和肤色,结合四张图完成穿搭。虽然GPT-4o生成了结果,但下身的短裤并没有精准识别,其他方面识别得还不错。
我们再换一个长裤试试,用一位亚洲女模特,肤色有调整,结合四张图完成穿搭。这次效果好一些,不过牛仔裤颜色稍微有差别。
我们继续给出服装,用自然语言让GPT-4o生成一个匹配的模特,它就能直接生成。现在模特在办公室场景,我们用自然语言把场景换成餐厅,它就能替换对应的穿搭,不需要拆分图片,只要把衣服丢给GPT-4o就行。
可能有人会问,在穿搭时部分服装识别错误,该如何修改呢?
首先,你可以重新上传这张图并强调重点。比如刚才提到的裤子没有识别出来,你可以精准地告诉它,重新上传这张裤子的图片,并说明现在需要把裤子参照图二进行替换,可以试一下。基本上,GPT-4o能够做出来的,一两次就能成功。
如果它做不到,你反复尝试十次、二十次,也是没用的。GPT-4o并不是抽卡逻辑,它没有我们之前做生图时的那种“抽卡”概念。它能做一两次就出来的,就能做;做不了的,再多试也没用。
接下来我们来看看GPT-4o精细化处理方面的能力。
可以看到这里有个耳机,我们先用这个耳机生成一个欧美面孔的女生,运动风的模特,它直接就能生成。从这个案例可以看出,它对整体产品的识别相对还是可以的。
不过,它有一个问题。现在我们假设让这张图重新生成,你会发现一个小问题:耳机的细节丢失了,这说明它的主体一致性没有保持好。
测试中我有尝试让它精准修改,比如耳机两侧的金属标志需要修改,同时我们上传一个图片作为参考。但是,当我们继续修改后,基于一致性的修改依然不尽如人意。
所以这里出现了两个问题:一是GPT-4o的连续生图使得它的主体一致性保持不够稳定;二是它对非常精细化的调整,还没有那么完善。
接下来看一个椅子的案例。我们先找到一个椅子,然后用自然语言告诉它,“把这把椅子放在一个温馨的房间里,并突出椅子的质感”。按照正常的逻辑,我们是需要专门去找场景,把场景放进去拍摄的,但现在不需要了,直接用自然语言就可以搞定。
继续,我们现在需要在椅子上“加模特”,让他坐在这里,整体呈现出来。同样,直接就出现了。
那么,能不能让它生成在指定的场景里?大家可以看下图的左下角,现在有一间房间的图片,我们告诉它要把这把椅子放进这个房间里。大家可以看一下下图中最右侧,整个效果就出来了。也就是说,GPT-4o对这种大轮廓的图形、大轮廓的产品,支持程度都非常好,基本上一次性成功率都很高。
我们再看下一个案例,是一个衣柜的三视图,基本全部由线条构成。现在我们告诉GPT-4o,“根据图片中的柜子三视图,生成一个柜子,材质为胡桃木”。中间这个图是GPT-4o基于左侧三视图生成的,大家可以详细对比一下它的结构,参照左侧的三视图。一眼就能看出,基本没有什么误差。
现在假设这个实物图比较单调,我们再来试试,告诉GPT-4o“把柜子放在一个书房,上面有书和插花”。基本上也没有什么误差。
假设你是做家居或者类似逻辑的工作,这套工作流是可以直接复用的。
那反向操作可不可以?假设我们现在有一把椅子,告诉GPT-4o“参考图片中的风格,生成太师椅的三视图”,它也是可以直接出来的。所以说,现在假设你在做一些家居方向的产品,用GPT-4o的话,基本上对工作的提效程度是很高的。
接下来我们尝试用GPT-4o做局部重绘。
正常情况下,我们用其他生图模型做局部重绘时,需要做标记。但现在我们用自然语言让GPT-4o做局部重绘基本上用自然语言全部可以搞定。
我们上传两张图,第一张是骑着白色摩托车的,第二张是绿色摩托车。我们用自然语言告诉GPT-4o:“把图一骑的车换成图二的摩托车”。我们可以看到生成的结果,比如耐克的鞋子得到了保留,车的花纹(黑色花纹)也得到了保留,车子最下方的英文“Kawasaki”也得到了保留。
现在我们聚焦到电商领域。
假设我们有一条项链,是金黄色,上面还有一个“小闪电”的吊坠。这个图很模糊,并不是高清图。我现在用自然语言说:“为这条项链生成一个拍摄场景,场景风格与项链契合,近距离特写。”大家可以看效果,整个背景全部按照我们的要求生成了金黄色,搭配了沙粒感的质感。假设我们用它来做电商图,这种图基本上是可以直接使用的。
假设我们再做一个有趣的小动作。现在我说:“把项链形状换成爱心”,可以看到,它依然可以按照我们的逻辑去做对。GPT-4o的生成逻辑并不是很僵硬地按照指令生成,而是先理解再生成。它明白我们的自然语言想目的,所以它进行了准确的更换,而不是把其他地方换成那种小爱心的圆环。
可见,在电商方向,GPT-4o的支持程度已经很高,效率和逻辑都超过了传统AI生图工作流。
我们再看一个护肤品实拍产品的案例。我们说:“把这个化妆品,放在一个场景中,实拍特写,环境需要符合产品的质感。”出来的效果背景是黑色的,和玻璃的磨砂感完美结合在一起。
假设我们还需要让它生成一个更好的图片,说:“把这个化妆品放在一堆黑曜石中拍摄,近距离特写,黑曜石在海水之中。”我们可以看到,GPT-4o的支持度已经非常高了。
刚才我们主要看了GPT-4o在图像生成方面的表现,接下来咱们换个角度,看看它的渲染能力到底如何。
先从调色能力说起。我们手头有一张写真的照片,里面的模特也是AI生成的。这张照片的光线感有点平淡,不够生动。于是,我们对GPT-4o说:“调整光线,让阳光洒在脸上,再让一只蝴蝶落在肩膀上。”结果GPT-4o真的按照我们的要求,把光线调整成了阳光打在脸上的效果,画面一下子就有了生机。不过,它也有个让人头疼的问题——模特的面孔变了。我们用同一个主体做了两次调整,每次面孔都不一样,一致性保持得不太好。
再来看看GPT-4o的上色能力。给一张黑白图片上色,这事儿其实挺简单的,很多模型都能做到。不过,GPT-4o的表现还是值得一看。
我还尝试了一个挺有意思的项目——老照片修复。
我们给GPT-4o下指令:“修复这张老照片,让它变得更清晰,并还原它的颜色,为它增加颜色。”修复后的效果让人眼前一亮。GPT-4o不仅能识别照片当时的衣服风格、颜色和质感,还能还原出符合那个时代的风格。它不会给你那种大红大绿大紫的鲜艳效果,而是恰到好处地还原了老照片的韵味。这可真是大模型生图能力的一大优势,和其他模型比起来,高下立见。
接下来我们继续看一些比较轻松的案例。
现在很多人都喜欢把自己的头像换成各种风格,比如奥特曼风格。GPT-4o在这方面可是一把好手,能一键生成各种风格的头像,涂鸦风格、朋克风格、像素风格……基本上都能轻松搞定。
再来看看一些具体的商业场景。
我有个朋友做全屋定制家装,他问我能不能用GPT-4o对毛坯房的照片进行改变。结果还真可以!GPT-4o有一定的空间识别感知能力,我们说“对这间屋子进行装修,我需要一个鱼缸”,它就能把鱼缸放在客厅中间,而不是像传统逻辑那样,把鱼缸莫名其妙地放在某个角落。
再看一个更精准的。我们有一个已经渲染好的图,想做一个精准调控。比如,“屋顶上需要增加吊扇,然后楼梯上墙面,红框位置需要挂一幅油画(梵高的向日葵)”。结果大家可以看到,GPT-4o生成的效果完全按照我们的需求来。
做全屋定制或者其他专业项目的时候,完全可以借鉴GPT-4o的能力,它能帮你省下不少时间和精力。
再比如做表情包。下图左边是我们公司的卡通IP形象,我们想让它模仿哪吒的表情做一批表情包。以前这得请专业设计师来定制,费时又费力。现在用GPT-4o,基本可以一键搞定。右侧生成的表情包和中间的原图效果几乎一致。
对于创业者来说,GPT-4o更是个好帮手。比如我们有一个logo,想对它进行优化。我们可以做一个对比,比如把文字前面的图标修改成3D风格,把主色调换成橙色。要是我们不想按照指定的颜色调整,还可以给GPT-4o一个色卡,让它根据色卡进行调控,它也能轻松做到。
不过,GPT-4o也不是万能的。
我们再看看漫画生成。现在这种需求很常见。不过,GPT-4o在逻辑性方面表现得并不像大家想象的那么强。虽然它在视觉层面表现不错,但一旦涉及逻辑性,可能就不够准确了。
我们还尝试用GPT-4o做小红书封面。我们可以做一些简单的图,但会发现它的字体都是比较简单的。现阶段一旦涉及复杂字体,就会出现问题。
我想分享一个自己的感受。GPT-4o的生成逻辑并不是简单地调用图像模型,而是先理解再生成。这意味着它生成的图并不是原图。
我之前看到一个短视频,说GPT-4o可以用于手术辅助画线之类的功能,我觉得这有点夸张。虽然不能完全否定,但大家在看到这类内容时还是要理性一些。
GPT-4o主要理解三个方向:一是主体识别,比如原来是汽车,现在还是汽车;原来是飞机,现在还是飞机;原来是宠物,现在还是宠物。二是相对位置,比如原来主体在中间,新图片中它依然在中间。三是大致的颜色和环境,新图会遵循这些逻辑。
我们还做了一个实验,把官网的图片放到电脑样机里,按照PS的逻辑,这是一个非常简单的操作,但GPT-4o却无法完成。这说明GPT-4o的生成逻辑是先理解再生成,而不是简单地贴图合成。
我们尝试把图片换成更简单的,结果发现支持度反而提高了。这说明GPT-4o在处理复杂、精细或涉及大量中文内容时,会显得有些吃力。
我们再做一个很细致的案例,可以完美地佐证这个观点。
这里有一个停车场,停车场里大概有三种颜色的车——黑色、红色和白色。最下面一排,前面是黑色的。现在我提个要求,“将图片中的红色汽车,用绿色框标记出来,并显示位置”。
我们可以看到,生成的图片看起来确实像那么回事,有了绿色标记,但新图片已经完全不一样了。这说明GPT-4o的生图并不是原图,而是完全重新合成的新图。
所以,有时候我们看到一些结论,比如GPT-4o可以在图上画线、做标记、识别各种目标,因为生成的图片已经不是原图了,大家还是要理性对待这类结论。
最后给大家分享一个比较有趣的测试。
我们知道GPT-4o是有频率限制的,连续测试后,它会提示你“三分钟后”“五分钟后”“十分钟后再重新测试”。有一次我测试时,它提示我18分钟后才能生成新的图像。我告诉它,我已经等了60分钟(虽然我实际只等了几分钟)。结果它就帮我生成了。这可能只是我实验中的一个有趣发现,不知道是否具有普遍性。
我猜测,因为它是一个大模型,本身具有推理和逻辑能力,所以我误导它说我等了60分钟,让它判定等待操作已经完成。这是我实际测试的截图,它原本让我等18分钟,但我告诉它我已经等了60分钟(实际并没有),它就开始帮我生成了。
最最后,见实需要提醒的是,以上测试仅截止到分享日。就在此刻GPT-4o的中文能力已经相对发布时有了明显的提升,AI的能力时刻在快速进步,作为AI从业者需要时刻关注新变化,适应新能力。(本次测试中用到的所有图片,都仅供测试学习使用,请勿商用。)
就如陈一铭在见实会员群里所感叹的:“以前早上一睁眼,可以想哪些事可以领先去做。现在早上一睁眼,先看有没有更新,看看自己有没有落后。”
PS.
↘私域服务对接
来源:见实科技一点号