第二个“ChatGPT 时刻”来了

B站影视 电影资讯 2025-04-11 10:45 1

摘要:ChatGPT 的更新带来了新的变革,尤其是 GPT-4o 的原生图像生成功能,标志着 AI 技术的又一重大突破。本文深入探讨了 GPT-4o 如何通过原生图像生成改变多个行业和工作领域,从广告设计到 UI/UX 设计,再到创意内容的生产。文章不仅分析了 GP

ChatGPT 的更新带来了新的变革,尤其是 GPT-4o 的原生图像生成功能,标志着 AI 技术的又一重大突破。本文深入探讨了 GPT-4o 如何通过原生图像生成改变多个行业和工作领域,从广告设计到 UI/UX 设计,再到创意内容的生产。文章不仅分析了 GPT-4o 的技术原理,还讨论了其对图像生成 AI 初创公司和创意工作者的深远影响。

ChatGPT 的最新更新已经在改变世界。数百万人已经受到影响,还有更多人受到影响。

但是为什么?

他们展示了 GPT-4o 的原生图像生成,使他们的模型不仅可以用文字表达自己,还可以用图像来表达自己(这不是它之前所做的,正如您今天将学习的那样)。

数百万人的生活,不仅包括互联网的产品经理、开发、运营或设计师,还包括许多其他工作,已经永远改变了。他们中的大多数人甚至还没有意识到。

未来,我们将以与 2022 年 ChatGPT 发布时相同(或更多)的方式回顾这一点,作为技术的开创性时刻。

01 GPT-4o 原生图像生成

好的,等等。实际上发生了什么?

简而言之,标题是 ChatGPT 的主要 AI 模型 GPT-4o 现在可以本地生成图像。这里的关键词是 “原生”,因为 ChatGPT 之前做的事情不是现在做的事情。

AI 第一次可以使用图像来表达自己。但这到底意味着什么呢?

正如他们所说,一张图片胜过千言万语,所以我让图片来说话。需要注意的第一个强大功能是,该模型可以将任何图像的样式转换为您请求的样式。

例如,它可以将像素化角色转换为任何样式,同时尊重每个微小的空间细节,例如姿势、颜色,甚至面部手势:

但是,如果这让您印象深刻,那么我们才刚刚开始。它还可以使视觉模板适应您的产品或主题。下面,该模型接收了一个化妆品广告,并将其转换为面包店广告。

当然,您可能想知道:

用户必须用速度和易用性来换取控制,对吧?嗯,不完全是,因为您可以向模型发送清晰的空间指令,它完全符合:

而这只是人们正在做的事情的冰山一角。有趣的是,GPT-4o 图像生成还可以将 HTML/CSS 代码作为输入并生成生成的 UI:

换句话说,您只需请求一个功能性的用户界面,该模型将生成一个严格遵守您的确切代码的 UI 图像。

如果说 ChatGPT 使 AI 助手的访问民主化,但除了有趣的对话之外,没有给我们的生活带来任何有意义的改变,那么GPT-4o 图像生成实际上改变了许多工作和行业的生活

现在,任何人都可以创建令人印象深刻的图像、广告、电影、Outpaints,只需使用自然语言提示即可。

如果您喜欢 AI,您就会知道图像生成已经存在多年。然而,它只是一个有趣的工具,而且只有在您是图像/视频编辑方面的专业人士时才是一个专业的工具,为您提供不错的世代,如下所示:

那时,像 Photoshop 或 Figma 这样的工具是强制性的,可以做任何有价值的事情。但是现在,使用 GPT-4o 图像生成,同样的提示将为您提供以下内容:

但是 OpenAI 做了什么来实现这样的结构性转变呢?

简而言之,就像贝尔实验室这样的传奇公司曾经所做的那样,他们并没有改进现有的东西;他们重新定义了这项技术以及它可以做什么

02 这个 “东西” 到底是什么

这一次,OpenAI 分享了他们为实现如此行业定义性成果所做的工作的信息。他们以最 OpenAI 的方式做到了这一点,使用了由 new GPT-4o 生成的图像:

一张图片中的信息如此之多。其中大部分对你来说听起来像是胡言乱语,但让我把这张图片的内容翻译给你:“每个人都在以一种方式拍摄图像。好吧,他们错了,我们即将颠覆这个行业,并在此过程中杀死所有不是我们的图像生成公司,包括 Google、xAI 或 Anthropic。

听起来很大胆,但这正是那张图片所暗示的。原因如下。

首先,在我们解释每张图片之前,我将描述该图片的关键要点。这样,如果这是您的情况,您可以跳过您已经知道的部分:

生成式 AI 行业的未来是一个单一的自回归转换器:不再有模型拼接,一个真正的任意对任意模型不再有纯扩散模型。扩散是生成图像的主要方法,但并非未来趋势。自回归生成,ChatGPT 如何生成文本,也是我们应该如何创建图像。这是巨大的革命性

为什么此模型的工作方式不同

GPT-4o 不仅进行图像生成——它还重新定义了它的完成方式。但要理解这种转变,你需要了解架构。

传统上,像 DALL·E 或 MidJourney 依赖于扩散:它们从噪声开始,然后通过多个步骤对其进行细化。

这些模型可以生成高质量的输出,但在指令遵循和多模态接地方面遇到困难,因为与 ChatGPT 等模型不同,它们不是为了根据上下文生成输出,而是以上下文为指导

这样想吧。ChatGPT 根据您提供给它的输入来预测其输出。输入和输出之间存在明显的因果关系,即使是输入中最微小的变化也会改变 ChatGPT 预测输出的方式。

另一方面,扩散模型生成由输入引导的输出。该模型经过训练,可以逐步擦除噪声(上图,左)以发现图像(右)。为了改变模型生成的内容,我们提供了一个文本指令,模型在降噪过程中将其用作指导。

这将生成与输入的语义含义匹配的图像 (cat) (“draw a cat”),如果这是您的指令,这已经足够好了,但如果您的输入涉及多条指令,或者更糟的是,涉及多个图像和文本的串联,则这将是一项非常复杂的任务。

总结:

ChatGPT 总是根据你提供的上下文生成输出;它经过训练,可根据您的上下文进行预测。;扩散模型经过训练,可以对噪点图像进行降噪,同时希望生成的图像在语义上与您的输入匹配;

如果我们根据它们的学习目标对这两个模型进行数学可视化,那么我所说的会更有意义。像 ChatGPT 这样的自回归模型本质上是一个概率模型 P( xt | x1,x2…,xt-1),它在给定所有先前的证据(输入序列)的情况下预测 ‘xt’。

扩散模型经过训练,可以看到图像及其标题,用噪声破坏它,并尝试恢复原始文件;它们从来都不是为了根据上下文进行预测,而是输出代表输入文本所描述内容的图像。

它读起来很相似,但结果却大不相同。

我假设你现在知道我在说什么了:OpenAI 不做扩散,而是提议将图像生成视为与预测单词几乎相同的任务。

更正式地说,GPT-4o 被构建为单个自回归转换器——就像 GPT 模型如何逐个令牌生成文本一样。但在这里,每种数据类型(文本、图像、音频)都被标记成统一的格式。这意味着图像生成不是固定在语言模型上的单独模式。两者的主干是相同的。

这背后的关键原因是实现模态不可知论。但是,这是什么意思呢?

当模态的重要性不再重要时

我希望你从这一切中学到的关键是,如果我们将每一代(文本、图像、视频、音频、语音等)视为一个相同的预测过程,并同时在所有这些模态上训练模型,我们会遇到一个美丽的含义:

模态变得无关紧要,就像它与我们无关紧要一样。

您是否在乎狗是如何被表现的,从而改变了您对狗的解释?例如,阅读关于狗的文字段落或听到狗的吠叫是否意味着它们是不同的概念?

不,它们是相同的概念,以不同的方式表示,如声音和文本,但基本概念是相同的。

对于 AI 来说,以前不是这种情况;他们没有将两个表示空间合二为一。借助像 GPT-4o 这样的真正多模态模型,AI 也在建立这种联系,强化狗不是单词或声音,而是一个可以通过文本、图像、音频描述的总体概念,…

一旦发生这种情况,并且如果架构经过调整以允许多模态预测(使用相同的预测方法预测多个模态中的数据),这正是 OpenAI 所做的,使模态能够被“合并”,同时间接地使这种模态的想法与模型无关;对于模型来说,数据类型并不重要,重要的是它们背后的内容。

为了使图像生成具有自回归性(根据以前的上下文进行预测),它们被认为受到字节跳动称为次级预测的方法的严重影响。

总之,将这种架构转向自回归图像生成不仅新颖——它解决了扩散模型无法解决的许多长期问题。

它更擅长遵循指令;它更擅长保持结构;它更擅长集成多种模式;

换句话说,这不仅仅是一项新功能。这是一种全新的图像生成方法。

这对图像生成 AI 初创公司和数百万艺术家、营销人员、UI/UX 设计师和广告代理商意味着什么?

这一版本在整个 AI 领域引发了冲击波,视觉生成领域的初创公司最能感受到这种颠覆。

03 关于 AI 初创公司的残酷真相

其中许多公司都是传播优先的文本到图像专家,他们的核心优势是视觉质量。

但 GPT-4o 增加了他们所缺乏的东西:跨模式智能。

因为 GPT-4o 是一个真正的多模态模型,所以它以前所未有的精度理解并遵守复杂的提示。不仅仅是“画一只猫”,而是“以吉卜力风格重新创建这张图片的布局,同时保持姿势和照明不变”。这种上下文保真度对于非多模态系统来说是遥不可及的。

不仅仅是 GPT-4o 产生了出色的视觉效果。而是它也可以对视觉效果进行推理。这种差异使一切变得不同。

更最终地,OpenAI 已经证明多模态训练允许更智能的图像生成。简单来说,这意味着如果你要参加图像或视频生成比赛,你需要训练多模态模型,这是最昂贵和最难训练的模型。

那么接下来会发生什么呢?我预计会出现两种结果之一。

这些以扩散为先的初创公司努力转向成本高昂、技术上棘手的多模态模型开发;他们被已经拥有基础设施和愿景的大型参与者收购;然后是劳动力市场;

残酷的事实和你必须失去的最后一件事。

UI/UX 设计师、艺术家、广告代理商、自由职业者 — 数以百万计的视觉交易者刚刚看到了他们脚下的地面变化。

以前,创建出色的广告布局或活动图像意味着使用 Figma、Photoshop,也许还要与团队合作。现在,只需一个提示,至少可以获得适度成功的结果,或者在某些情况下,获得可用于生产的视觉效果。

然而,这并不意味着这些角色会消失。相反,他们正在适应(可悲的是,他们正在收缩)。是的,现实情况是,曾经花费 3,000 美元和三周的东西现在可能要花费一个句子和 30 秒的等待,这意味着这些地区对人类工作的需求将直线下降。

如果您现在感到害怕,或者从远处看到战鼓,那么您并不孤单:

例如,我可以制作一个不错的广告或引人注目的视觉效果,但我也可以保证,拥有词汇和艺术创造力的艺术家和设计师,可以比我更好地传达他们想要的东西,他们会看到巨大的需求,因为在一个充斥着 5/10 设计的世界里,那些产生 10/10 的设计仍然会有一席之地。

但我不会粉饰这样一个事实,即与所有商品化市场一样,如果您的产品没有差异化,那么您现在的风险就会大大增加。

无论我们喜欢与否,我坚信它的影响将比 ChatGPT 对写作的影响更广泛。纯文本助手很有帮助。相比之下,GPT-4o 图像生成直接蚕食了高价值的创意工作流程

第二个“ChatGPT”时刻。

总结一下我对短期和长期影响的看法:

如果 prompt-to-UI 和 prompt-to-image/video 编辑变得可靠(它们会变得可靠), 原型设计工具可能需要完全重塑自己 ;如果 prompt-to-campaign 成为常态, 营销团队将收缩,代理商将消失 ;如果多模式生成成为基础,那么单模态应用程序将在一夜之间成为传统技术;

但需要明确的是:这并不是创造性工作的终点。它只是在变化。这是否会扼杀你周围的艺术氛围,我明白。无论你现在是否担心你的工作,我也完全理解这一点。

然而,遗憾的是,市场并不关心你的感受,所以感到悲伤而无所作为对你没有帮助。

幸运的是,如果您是受影响的人之一,并不是所有的希望都消失了。

如前所述,AI 不会扼杀你的艺术天赋,而是在适应它。每一次重大转型都会让那些快速适应的人受益。

本文由 @来学习一下 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务

来源:人人都是产品经理

相关推荐