被误导两天,GPT-4o文生图模型强到可怕

B站影视 内地电影 2025-03-29 13:45 1

摘要:他举例说,像提示词「两个人相互推对方」这种简单概念,真正最新版模型应该能准确表现。他还建议我检查是否使用了新模型,并给了我一个链接,称那是最新版的界面。

前天,写了一篇关于 ChatGPT 文生图功能的文章。

发到知乎后,一位 2021年的年度新知答主 提出了质疑,认为我使用的可能不是最新的模型,因为新旧版本差距很大。

他指出,最新版文生图能力很强,而我展示的结果提示词理解差,生成的文字也错误很多。

他举例说,像提示词「两个人相互推对方」这种简单概念,真正最新版模型应该能准确表现。他还建议我检查是否使用了新模型,并给了我一个链接,称那是最新版的界面。

他还分享了一个验证方法:

输入100+个英文单词,如果文字全乱就是其他模型(如DALL·E),如果只错一两个字母才是最新版的 ChatGPT

他还晒出了两次按我的提示词生成的结果,质疑不能都用“随机性”来解释。被他这么一说,我怀疑自己用错了模型,我之前用的ChatGPT客户端,拿它生成的来比,效果的确有有差异,于是,决定重新试一下。

首先,我用了这位新知答主给我的提示词,如下:

Alright, here’s a shorter version:12 flowers in a 4x3 grid on a wooden tray with glass bottom and animal fat layer. From top to bottom

ylang-ylang, osmanthus, yellow champaca; tuberose, gardenia, jasmine; carnation, peony, pink hyacinth; blue iris, violet, wisteria. Photo taken on a sunny afternoon

英文原意比较长,翻译成缩减的中文是:

从正上方俯拍的 12 种花,呈四行三列摆放。第一行有依兰、桂花和黄缅栀子;第二行有晚香玉、栀子花和茉莉;

第三行有康乃馨、牡丹和粉色风信子;第四行有蓝鸢尾、紫罗兰和紫藤。所有的花都放在一个带玻璃底的木质托盘上,玻璃上有一层透明的动物脂肪。照片拍摄于一个阳光明媚的下午,托盘被阳光完全照亮。

ChatGPT 很快给出了答案。这次生成与以往不同的是,它补充了一句话:根据你的描述,这是由 DALL·E 创建的。DALL·E 是 OpenAI 的图像生成模型。

看来,不仅我遇到过前天提到的模型混淆问题,估计国外友人也遇到过类似情况。

从这里可以得出一个结论:ChatGPT 官方提到的免费试用最新的非自回归模型(Non-autoregressive models)似乎并不支持,或者说做了一定限制。

于是,我直接把问题抛给了 ChatGPT:如何运用最新的文生图模型?”它给出了三种答案:

第一种是直接使用 ChatGPT 内置的图像生成功能,直接输入详细的描述,它会用最新的模型生成图像。你可以优化提示词(Prompt),比如:

具体描述主体、背景、光照、风格等指定构图,比如“俯视图”“广角镜头”选择艺术风格,如“油画风”“赛博朋克风”

第二种是使用 API,你可以进行批量生成或将其集中到作品中;第三种则是纯介绍,它提到新的文生图模型做了多模态结合,生成带有故事性的连续图像,用 AI 先生成草图,再细化成精美插画等。

不想太多,我直接按照它的要求,把任务交给了 Kimi,让 Kimi 帮我生成一个提示词:

在昏暗的复古书房里,一盏台灯散发着柔和的暖光,照亮了一张古老的木质书桌。书桌上散落着几本泛黄的书籍和一支羽毛笔,旁边是一杯冒着热气的红茶。画面采用油画风格,营造出宁静而怀旧的氛围,仿佛时间在这里静止。

ChatGPT生成的图片如下,但是,它依然还是那句话,这是由 DALL·E 生成的图像,展现了你描述的复古书房氛围;很快,ChatGPT 将推出新的图像生成模型,带来更好的细节和风格控制。

所以,结论是:ChatGPT模型是无法使用最新的文生图模型的。怎么办?为了验证准确度,好久没有给ChatGPT充值的我,索性再来了一个月会员。

搞定后,切换到ChatGPT 4o对话界面,输入提示词:

在一片宁静的海边小镇,夕阳的余晖洒在古老的灯塔上,灯塔的影子拉得很长。远处的海面上,几艘小船在金色的波光中缓缓航行,天空中飘着几朵粉色的云。画面采用水彩画风格,色彩柔和而温暖,营造出一种宁静而梦幻的氛围。

响应速度有点慢,不过,生成的图片的确有意境:

所以,必须ChatGPT 4o才可以用,GPT还是老版本的DALL·E模型。随后,我又给它了一个卡通人物的提示词:

一个活泼可爱的卡通小猫,有着大大的蓝色眼睛和柔软的粉色耳朵,身上穿着一件红色的小背带裤,脚上蹬着一双黄色的小靴子。

它正站在一个充满魔法的森林里,周围是五颜六色的蘑菇和闪烁的萤火虫。画面采用卡通风格,色彩鲜艳明亮,营造出一种奇幻又欢乐的氛围。画面比例为4:3。

我很好奇它能生成什么样的画面。你觉得怎么样呢?

我确实不太好评价,只能说这张图风格可爱、充满童趣,色彩温馨。如果用在儿童读物、绘本,或者早教、幼教的互动课件、手工素材里,肯定是足够的。

接着我把图片拿给豆包,让他深度思考一下,说:你评价一下效果怎么样?我用的是ChatGPT 4o的最新文生图模型。

豆包说:

这幅图还挺不错。小猫的表情和衣服细节画得挺生动,蘑菇和萤火虫也很有感觉。暖色调的小猫配上冷色的夜景,色彩搭配和谐,营造出一种梦幻又可爱的氛围。

小猫在画面中间,构图看着很舒服,主题也很突出。画面整体质量挺高,能用到不少地方,这模型生成的效果挺好。”

但是,问题来了,测试文生图也看不出它的厉害之处,试试它两张图的融合能力怎么样?

我从百度上随机下载了两个水杯的图片,这两个水杯都处于真实的场景中,且每个水杯都有手拿着。我想看看它是否能把手抠掉,把两个杯子放在同一个平面上。

然后给到 Kimi,让 Kimi 帮我写个提示词:

请将两张水杯图片中的手部部分去除,仅保留水杯本身,确保水杯的细节清晰完整。背景保持简洁,以便用于电商海报设计。水杯的光影和质感需要保留,确保整体画面自然且具有吸引力。

第一次它好像卡住了,跟我说:抱歉,我处理不了你的要求,要不你再试试?

估计是用的人太多了。我重新开个窗口,这回它很快就有反应了。问题是,第一张照片处理得挺干净,但第二张直接被忽略了。

这下我可不干了,直接把要求说得清清楚楚,一共四点:

把两只手都去掉,只留下水杯;水杯的细节、质感和光影得保留好,看着得自然;背景要简单干净,突出水杯;两个水杯放在一起,比例要协调,画面得好看。还特别提醒它,尺寸要4:3的。

结果它花了大概40秒,就搞定了。看到结果时,真的只能惊叹:“这也太厉害了”,设计师要下岗了。

你觉得怎么样?速度、效率远比人工抠图搞的快。

我又试了试Chat GPT 4o新出的知识图功能,官方吹的吹得神乎其神,说有了这功能,AI生成图片能把现实世界里的知识用起来,更懂用户想啥,做出来的图也更靠谱、更合乎常理。

简单说:AI画画会琢磨现实里的那些细节,比如地方在哪儿、啥文化背景,还有物理规律那些。

这次,让deepseek来,我说,你帮我写一个带因果逻辑的文生图的提示词。有一个细节就是图片比例依然是4:3。这是它随机给到的:

内容是一个阳光明媚的下午,一个小男孩坐在公园的长椅上,手里拿着一个冰淇淋,脸上露出开心的笑容。

因为他刚在游乐场玩得很开心,现在正享受着美味的冰淇淋。画面采用温馨的色调,背景是绿树成荫的公园,远处有几个小朋友在玩耍。图片比例为4:3,整体风格清新自然。

额,这看不出什么因果逻辑。怎么办?重新来过。索性直接把「定律」加在图中间。这是deepseek给我的两个提示词:

一个是杠杆定律:生成一张图,一个小孩在跷跷板上,通过杠杆原理把一个重物抬起来。小孩用力往下压,重物被抬高,体现杠杆原理。背景简单,比例4:3。

如上图。这看着像吗?的确很杠杆。给豆包后,它说:

这图是说,有个小孩在压跷跷板一头,想把另一头的大重物撬起来。就像玩跷跷板,坐一头能把另一头的人翘起来,利用这个方法,不用费老不用费老大劲就能把重东西抬起来,是一种省力的小窍门。

的确有点强。不过兴许有些简单,换一个:就拿「相对论的时间膨胀效应」来测试。

提示词:

生成一张图,展示两个人:Alice 在地球上,Bob 在高速飞行的宇宙飞船里。因为相对论的时间膨胀效应,Bob 看起来比 Alice 年轻。地球上 Alice 在慢慢变老,而飞船里的 Bob 几乎没变。背景简单,比例4:3。

你能看得出来吗?

反正我能看得懂。不过,第一次生成时,Alice的名字被放在了脚下面,看起来有点奇怪。经过二次对话微调后,成功地把名字放到了正确的位置。

我认为还能在进化,比如:指定人物的性别等等。

除了文生图、图片与图片合成、以及生成理解物理世界规律的图以外,还有没有其他玩法呢?

试试风格转换。比如:将一张人物照片转换为动漫风格,或者将一张图片的风格与另一张图片的内容融合,这种技术在艺术创作和设计时非常受用。

问题是怎么转换呢?我现在有一张个人形象照,把问题甩给DeepSeek,让它帮我想想。

DeepSeek说:如果你想测试OpenAI的ChatGPT文生图模型的能力,可以出一个稍微复杂一点但又具体明确的问题,这样既能考验模型的理解能力,又能测试它的生成能力。

比如:我有一张个人形象照,我想把它变成动漫风格。希望你能帮我把照片里的我变成一个动漫角色,头发换成深蓝色的,整体风格有点赛博朋克那种酷酷的感觉。图片比例是4:3就行。

不管了,一股脑甩给ChatGPT 4o来处理。这好像有点翻车了。不过,可能我要求太高了。

的确有点抽象,你怎么看?

不管怎么说,非自回归模型(Non-autoregressive models)的进化速度确实很快,它改变了核心架构。

这个架构会先理解整个图的结构和细节,有点像学生先听完老师讲完题目,把整张画的轮廓勾勒出来,然后再一点点填充细节。

国内很多产品也在用这种能力了,希望能抓紧时间赶上并超越它。作为个人,我们也要思考一下:

如何快速掌握AI生成图片的能力,并把它用到工作场景中。说到这儿,问题就来了:你会用它做什么呢?快去试试吧,记得,用ChatGPT 4o模型才有。

来源:王智远一点号

相关推荐