摘要:OpenAI首席执行官萨姆・奥尔特曼(Sam Altman)表示:ChatGPT的文生图应用需求过高,我们的GPU“冒烟了”(melting,原为融化之意),在努力提高效率的同时,将暂时对ChatGPT生成图片的功能引入一些速率限制。
随着OpenAI的图像生成功能完成重大升级,新的问题出现了。
OpenAI首席执行官萨姆・奥尔特曼(Sam Altman)表示:ChatGPT的文生图应用需求过高,我们的GPU“冒烟了”(melting,原为融化之意),在努力提高效率的同时,将暂时对ChatGPT生成图片的功能引入一些速率限制。
图片来源:社交平台
这意味着,OpenAI将对ChatGPT的图像生成功能实施临时限速,降低单位时间内的请求处理量,缓解GPU过载压力,并优先保障文本生成、对话等核心功能的稳定性,或许将暂时放缓图像生成的技术优化节奏。
据OpenAI官网,当地时间3月25日,美国开放人工智能研究中心(OpenAI)宣布正式推出GPT-4o图像生成功能。
图片来源:OpenAI官网
该功能上线后,以“动动嘴就能P图”的便利迅速火爆,互联网平台上涌入大量由个人照片、知名梗图转变而来的“吉卜力”卡通风格图片。
“动动嘴就能P图”是指通过简单的文字描述或语音指令,利用AI技术直接对图片进行编辑、修改或生成,而无需手动使用复杂的图像编辑工具,如Photoshop等。这种功能的核心在于将自然语言处理与图像生成技术相结合,极大地降低了图片编辑的门槛。
GPT-4o是一个多模态AI模型,能够接受文本、音频和图像的组合输入,并生成相应的图像输出。这意味着用户可以通过语音指令来要求AI生成或修改图像,而不仅仅局限于文字描述。
连Altman也感叹起该功能带来的泼天流量:“自己过去十年埋头苦干做AI,试图帮助实现超级智能来治愈癌症之类的事情。前7.5年几乎无人问津,接下来的两年半,做什么都会引来所有人的厌恶。然后某天醒来收到几百条消息,人们告诉你被画成了吉卜力风格的美少年。”
Sam Altman在社交平台上的新头像,生成自Images in ChatGPT
据OpenAI介绍,GPT-4o图像生成功能具备四大核心优势:精准文本渲染、严格指令遵循、深度知识调用及创意拓展能力。
据扬子晚报·紫牛新闻,为验证其实际表现,记者进行了多组实测。在测试“生成一张带有‘扬子晚报/紫牛新闻’字样的照片”时,GPT-4o精准还原了英文部分内容,但对于中文字符的识别能力有待提升。整个过程耗时约30秒,生成速度远超预期。
图片来源:扬子晚报·紫牛新闻
在另一项测试中,通过多轮对话优化图像。首先要求生成“一只老虎,戴着黑色墨镜”,GPT-4o迅速呈现了细节丰富的画面。老虎的毛发纹理清晰可见,透过墨镜能看到老虎的眼睛细节。随后,记者进一步输入指令“给这个老虎戴上侦探帽,并生成游戏场景”,新生成的图像不仅完美实现了场景变化,还保持了主体特征的一致性,展现了强大的上下文连贯性。
图片来源:扬子晚报·紫牛新闻
针对复杂场景的处理能力,以“设计一个包含12个不同物体的4x3网格图,每个物体需准确呈现指定特征”进行测试。GPT-4o成功应对了这一挑战,从蓝色星星、红色三角形到彩虹闪电,细节精准度令人惊叹。但可能是对中文理解能力不足,生成图案中存在指令缺失的情况。
在实用性测试中,记者尝试生成专业场景图像。例如,要求“制作一份传统中式风格的餐厅菜单,包含毛血旺和酸菜鱼的菜品描述”。GPT-4o生成的菜单不仅文字排版优雅,插画风格与菜品完美契合,整体视觉效果令人满意。此外,生成科学示意图的能力同样出色。记者输入指令“绘制牛顿棱镜实验的示意图”,模型迅速输出了结构清晰的教学图像。
尽管存在这些不足,GPT-4o 图像生成功能的革新性依然显著。其精准的文本渲染能力、对复杂指令的高遵循度,以及多轮对话中的一致性表现,为创意设计、教育教学、游戏开发等领域提供了强大工具。正如OpenAI首席执行官萨姆・奥尔特曼(Sam Altman)所言,这一功能的推出标志着 “创作自由的新高点”,用户将借此释放更多视觉创意潜能。
作为AI领域的头部玩家,OpenAI背后的GPU储备自然是业内顶尖水准。根据技术咨询公司Omdia的分析,微软作为OpenAI的主要投资者,在2024年购买了约48.5万块英伟达的Hopper芯片,是其主要竞争对手Meta的两倍,这使其成为英伟达GPU的最大买家。OpenAI的大模型正是用微软的Azure云基础设施进行训练。
可以说,OpenAI因新功能面临的问题,折射了AI多模态技术发展中的资源与需求平衡难题,一方面,AI应用对GPU等算力资源的需求依然庞大,另一方面,行业继续呼唤技术迭代,以求高效利用现有资源。
图片来源:视觉中国
据北京商报,此次更新GPT-4o的图像生成功能之后,OpenAI更大的产品更新将是推出GPT-5。今年2月,OpenAI首席执行官山姆·奥尔特曼表示,OpenAI将会在ChatGPT和API服务中搭载新模型GPT-5,GPT-5将集成公司多项技术,包括推理模型o3的技术,GPT-5可能会在未来几个月内推出。
相比于之前一直不明确GPT-5的推出节点,奥尔特曼突然官宣GPT路线图,或许是因为OpenAI面临用户流失的压力。奥尔特曼此前表示,DeepSeek让OpenAI的领先优势不会像前几年那么大了,并称个人认为在开源权重模型和研究成果的问题上,OpenAI已经站在了历史的错误一边,需要制定不同的开源策略。
此前据《华尔街日报》报道,OpenAI内部代号为“猎户座”(Orion)的GPT-5项目的开发已持续近两年,目前面临严峻挑战。按原计划,该项目应在2024年年中完成,但现在进度严重滞后。
OpenAI已经进行了至少两次大型训练,每次训练都需要数月时间处理大量数据,目的是让“猎户座”变得更聪明。一位前OpenAI高管表示,如果说GPT-4的表现相当于一个优秀高中生,那么GPT-5的目标是要在某些任务上达到博士水平。然而熟悉该项目的人士表示,“猎户座”的训练每次都会出现新问题,软件也达不到研究人员的预期。
东吴证券发布研报称,判断OpenAI对大模型的产品线与预期曾进行过调整。GPT-5的发布时间或提前,或由于DeepSeek近期的重磅更新和亮眼表现对OpenAI产品版图构成了威胁,进而希望加快产品迭代步伐。
研究机构Gartner预测,到2026年,多模态生成模型的商业价值将占AI市场的45%。随着谷歌与微软等巨头持续加码,生成式AI正从通用工具向产业基础设施演变,但其社会伦理、监管框架的完善也有待各方共同探索。
每日经济新闻综合北京商报、扬子晚报·紫牛新闻、OpenAI官网、公开资料
每日经济新闻
如需转载请与《每日经济新闻》报社联系。
来源:每日经济新闻