AI观察|吉卜力画风火了,“多模态”探索成AI发展关键

B站影视 电影资讯 2025-04-08 17:04 2

摘要:如果留心自己的朋友圈,你或许会被近日席卷社交平台“吉卜力”风所席卷,以往沉寂已久的朋友也会在朋友圈中晒出自己的吉卜力照片。这些图片大都来自GPT-4o更新的生图功能。最初,图像生成功能仅供ChatGPT Plus、Pro和Team订阅者使用,他们于3月2日获得

【环球网科技报道 记者 秦耳】如果留心自己的朋友圈,你或许会被近日席卷社交平台“吉卜力”风所席卷,以往沉寂已久的朋友也会在朋友圈中晒出自己的吉卜力照片。这些图片大都来自GPT-4o更新的生图功能。最初,图像生成功能仅供ChatGPT Plus、Pro和Team订阅者使用,他们于3月2日获得访问权限。与早期模型不同,ChatGPT现在能够在单帧中生成包含10到20个不同对象的图像,从而极大增强了其创造能力。

自推出以来,社交媒体平台上就充斥着吉卜力风格的图片。用户们创造性地尝试各种主题,包括家人和朋友的个人照片,以及受网络文化启发的作品。

以至于OpenAI CEO 山姆·奥特曼在个人社交账号发布了一条令自己都哭笑不得的动态:“我花了十年想用AI帮人类治疗疾病,前七年半没人搭理我,后两年半大家还都挺烦我。结果有一天醒来,突然看到成千上百条留言说,把我做成了吉卜力风格的小白脸。”同时,他表示希望大家冷静对待这个功能,这个突然“病毒式传播”的功能让OpenAI的算力告急,导致系统压力巨大。

对于这次更新,产业专家王煜全认为,这次GPT-4o生图技术看似是个小功能,但它却标志着在图片设计领域,创意与技术已经正式解绑,并会迅速形成无门槛的创新生态。

实际上,在OpenAI最初推出生图功能,业界认为OpenAI只是将DALL-E融入了GPT模型,是一次不痛不痒的小更新。毕竟,早在2023年人们就见证了Midjourney的AI作图能力,只需要输入关键词,便可得到一系列AI图片,从中选出自己心仪的图片。

相较于Midjourney这次GPT-4o引发业界关注的作图能力,在于它实现了“边画边改”的能力。GPT-4o摒弃了传统扩散模型所依赖的“逐步去噪”机制,而是采用了自回归生成方式,让用户拥有了更强的灵活性和可调整性。用户能够轻松掌控生成结果,还能随时对生成内容进行细致调整,无需再像以往那样生成大量图片,而后从中费力筛选出符合需求的作品。例如,在中文方面,这一次的GPT-4o可以准确地识别中文,而且不需要输入关键词,只要输入文稿,就可以获得一张信息准确的图片。同时,实现持续的细节修订。比如,给人物换个发色,换双鞋子,它都可以马上响应。

对此,不少业内专家认为,4o的更新,似乎已经超过了“替代人工”的临界点。在今后的几年里,设计、作图将回归“创造力和鉴赏力”。AI工具不光能让他们的想象变成现实,还能让他们的创作效率指数级地跃升。

此外,王煜全也提到,此次GPT-4o展现的能力背后,更多的是OpenAI在大模型“多模态”领域的探索,而“多模态”能力的展现将会是即将发布的GPT-5 能力展现的主要方向。

在他看来,目前业界基本形成一个共识,“多模态将显著降低大模型的幻觉”。包括DeepSeek在内的主流大模型,主要是通过输入文本完成内容输出。在这样的情况下,一旦文本错误,会导致输出结果错误。用错误数据训练也会造成模型“虚幻”。“多模态”的优势在于,让数据的输入后可以在不同角度进行推理论证,从而保证输出结果的准确性。

值得一提的是,国内的大模型也已经在这方面展开,目前已知的是,字节旗下的豆包大模型也推出了SeedEdit,同样可以实现 " 自然语意修图 ",用户只需输入简单的自然语言,便可对图像进行多样化编辑操作。而且目前豆包的 " 图像生成 " 功能是完全免费且不存在限制的,这一波甚至能把开会员的钱也给直接省下来。

可以预见的是,随着 AI 图像编辑技术的不断发展,未来手机、电脑都可能会集成这项功能。届时,无论是对图像处理一知半解的新手小白,还是深谙此道的专业大咖,都能轻松驾驭这一技术,将自己内心对美的独特感悟,以更加直观、生动的方式呈现出来。

来源:环球网科技频道

相关推荐