“动动嘴就能P图”，ChatGPT文生图功能太火爆，奥尔特曼：GPU“冒烟了”！什么情况？

摘要：OpenAI首席执行官萨姆・奥尔特曼（Sam Altman）表示：ChatGPT的文生图应用需求过高，我们的GPU“冒烟了”（melting，原为融化之意），在努力提高效率的同时，将暂时对ChatGPT生成图片的功能引入一些速率限制。

随着OpenAI的图像生成功能完成重大升级，新的问题出现了。

OpenAI首席执行官萨姆・奥尔特曼（Sam Altman）表示：ChatGPT的文生图应用需求过高，我们的GPU“冒烟了”（melting，原为融化之意），在努力提高效率的同时，将暂时对ChatGPT生成图片的功能引入一些速率限制。

图片来源：社交平台

这意味着，OpenAI将对ChatGPT的图像生成功能实施临时限速，降低单位时间内的请求处理量，缓解GPU过载压力，并优先保障文本生成、对话等核心功能的稳定性，或许将暂时放缓图像生成的技术优化节奏。

据OpenAI官网，当地时间3月25日，美国开放人工智能研究中心（OpenAI）宣布正式推出GPT-4o图像生成功能。

图片来源：OpenAI官网

该功能上线后，以“动动嘴就能P图”的便利迅速火爆，互联网平台上涌入大量由个人照片、知名梗图转变而来的“吉卜力”卡通风格图片。

“动动嘴就能P图”是指通过简单的文字描述或语音指令，利用AI技术直接对图片进行编辑、修改或生成，而无需手动使用复杂的图像编辑工具，如Photoshop等。这种功能的核心在于将自然语言处理与图像生成技术相结合，极大地降低了图片编辑的门槛。

GPT-4o是一个多模态AI模型，能够接受文本、音频和图像的组合输入，并生成相应的图像输出。这意味着用户可以通过语音指令来要求AI生成或修改图像，而不仅仅局限于文字描述。

连Altman也感叹起该功能带来的泼天流量：“自己过去十年埋头苦干做AI，试图帮助实现超级智能来治愈癌症之类的事情。前7.5年几乎无人问津，接下来的两年半，做什么都会引来所有人的厌恶。然后某天醒来收到几百条消息，人们告诉你被画成了吉卜力风格的美少年。”

Sam Altman在社交平台上的新头像，生成自Images in ChatGPT

据OpenAI介绍，GPT-4o图像生成功能具备四大核心优势：精准文本渲染、严格指令遵循、深度知识调用及创意拓展能力。

据扬子晚报·紫牛新闻，为验证其实际表现，记者进行了多组实测。在测试“生成一张带有‘扬子晚报/紫牛新闻’字样的照片”时，GPT-4o精准还原了英文部分内容，但对于中文字符的识别能力有待提升。整个过程耗时约30秒，生成速度远超预期。

图片来源：扬子晚报·紫牛新闻

在另一项测试中，通过多轮对话优化图像。首先要求生成“一只老虎，戴着黑色墨镜”，GPT-4o迅速呈现了细节丰富的画面。老虎的毛发纹理清晰可见，透过墨镜能看到老虎的眼睛细节。随后，记者进一步输入指令“给这个老虎戴上侦探帽，并生成游戏场景”，新生成的图像不仅完美实现了场景变化，还保持了主体特征的一致性，展现了强大的上下文连贯性。

图片来源：扬子晚报·紫牛新闻

针对复杂场景的处理能力，以“设计一个包含12个不同物体的4x3网格图，每个物体需准确呈现指定特征”进行测试。GPT-4o成功应对了这一挑战，从蓝色星星、红色三角形到彩虹闪电，细节精准度令人惊叹。但可能是对中文理解能力不足，生成图案中存在指令缺失的情况。

在实用性测试中，记者尝试生成专业场景图像。例如，要求“制作一份传统中式风格的餐厅菜单，包含毛血旺和酸菜鱼的菜品描述”。GPT-4o生成的菜单不仅文字排版优雅，插画风格与菜品完美契合，整体视觉效果令人满意。此外，生成科学示意图的能力同样出色。记者输入指令“绘制牛顿棱镜实验的示意图”，模型迅速输出了结构清晰的教学图像。

尽管存在这些不足，GPT-4o 图像生成功能的革新性依然显著。其精准的文本渲染能力、对复杂指令的高遵循度，以及多轮对话中的一致性表现，为创意设计、教育教学、游戏开发等领域提供了强大工具。正如OpenAI首席执行官萨姆・奥尔特曼（Sam Altman）所言，这一功能的推出标志着 “创作自由的新高点”，用户将借此释放更多视觉创意潜能。

作为AI领域的头部玩家，OpenAI背后的GPU储备自然是业内顶尖水准。根据技术咨询公司Omdia的分析，微软作为OpenAI的主要投资者，在2024年购买了约48.5万块英伟达的Hopper芯片，是其主要竞争对手Meta的两倍，这使其成为英伟达GPU的最大买家。OpenAI的大模型正是用微软的Azure云基础设施进行训练。

可以说，OpenAI因新功能面临的问题，折射了AI多模态技术发展中的资源与需求平衡难题，一方面，AI应用对GPU等算力资源的需求依然庞大，另一方面，行业继续呼唤技术迭代，以求高效利用现有资源。

图片来源：视觉中国

据北京商报，此次更新GPT-4o的图像生成功能之后，OpenAI更大的产品更新将是推出GPT-5。今年2月，OpenAI首席执行官山姆·奥尔特曼表示，OpenAI将会在ChatGPT和API服务中搭载新模型GPT-5，GPT-5将集成公司多项技术，包括推理模型o3的技术，GPT-5可能会在未来几个月内推出。

相比于之前一直不明确GPT-5的推出节点，奥尔特曼突然官宣GPT路线图，或许是因为OpenAI面临用户流失的压力。奥尔特曼此前表示，DeepSeek让OpenAI的领先优势不会像前几年那么大了，并称个人认为在开源权重模型和研究成果的问题上，OpenAI已经站在了历史的错误一边，需要制定不同的开源策略。

此前据《华尔街日报》报道，OpenAI内部代号为“猎户座”（Orion）的GPT-5项目的开发已持续近两年，目前面临严峻挑战。按原计划，该项目应在2024年年中完成，但现在进度严重滞后。

OpenAI已经进行了至少两次大型训练，每次训练都需要数月时间处理大量数据，目的是让“猎户座”变得更聪明。一位前OpenAI高管表示，如果说GPT-4的表现相当于一个优秀高中生，那么GPT-5的目标是要在某些任务上达到博士水平。然而熟悉该项目的人士表示，“猎户座”的训练每次都会出现新问题，软件也达不到研究人员的预期。

东吴证券发布研报称，判断OpenAI对大模型的产品线与预期曾进行过调整。GPT-5的发布时间或提前，或由于DeepSeek近期的重磅更新和亮眼表现对OpenAI产品版图构成了威胁，进而希望加快产品迭代步伐。

研究机构Gartner预测，到2026年，多模态生成模型的商业价值将占AI市场的45%。随着谷歌与微软等巨头持续加码，生成式AI正从通用工具向产业基础设施演变，但其社会伦理、监管框架的完善也有待各方共同探索。

每日经济新闻综合北京商报、扬子晚报·紫牛新闻、OpenAI官网、公开资料

每日经济新闻

如需转载请与《每日经济新闻》报社联系。

来源：每日经济新闻

标签：文生奥尔特曼 chatgpt gpu chatgpt文生

本文地址：http://news.43b.com.cn/a/951010.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!