AI观察｜吉卜力画风火了，“多模态”探索成AI发展关键

摘要：如果留心自己的朋友圈，你或许会被近日席卷社交平台“吉卜力”风所席卷，以往沉寂已久的朋友也会在朋友圈中晒出自己的吉卜力照片。这些图片大都来自GPT-4o更新的生图功能。最初，图像生成功能仅供ChatGPT Plus、Pro和Team订阅者使用，他们于3月2日获得

【环球网科技报道记者秦耳】如果留心自己的朋友圈，你或许会被近日席卷社交平台“吉卜力”风所席卷，以往沉寂已久的朋友也会在朋友圈中晒出自己的吉卜力照片。这些图片大都来自GPT-4o更新的生图功能。最初，图像生成功能仅供ChatGPT Plus、Pro和Team订阅者使用，他们于3月2日获得访问权限。与早期模型不同，ChatGPT现在能够在单帧中生成包含10到20个不同对象的图像，从而极大增强了其创造能力。

自推出以来，社交媒体平台上就充斥着吉卜力风格的图片。用户们创造性地尝试各种主题，包括家人和朋友的个人照片，以及受网络文化启发的作品。

以至于OpenAI CEO 山姆·奥特曼在个人社交账号发布了一条令自己都哭笑不得的动态：“我花了十年想用AI帮人类治疗疾病，前七年半没人搭理我，后两年半大家还都挺烦我。结果有一天醒来，突然看到成千上百条留言说，把我做成了吉卜力风格的小白脸。”同时，他表示希望大家冷静对待这个功能，这个突然“病毒式传播”的功能让OpenAI的算力告急，导致系统压力巨大。

对于这次更新，产业专家王煜全认为，这次GPT-4o生图技术看似是个小功能，但它却标志着在图片设计领域，创意与技术已经正式解绑，并会迅速形成无门槛的创新生态。

实际上，在OpenAI最初推出生图功能，业界认为OpenAI只是将DALL-E融入了GPT模型，是一次不痛不痒的小更新。毕竟，早在2023年人们就见证了Midjourney的AI作图能力，只需要输入关键词，便可得到一系列AI图片，从中选出自己心仪的图片。

相较于Midjourney这次GPT-4o引发业界关注的作图能力，在于它实现了“边画边改”的能力。GPT-4o摒弃了传统扩散模型所依赖的“逐步去噪”机制，而是采用了自回归生成方式，让用户拥有了更强的灵活性和可调整性。用户能够轻松掌控生成结果，还能随时对生成内容进行细致调整，无需再像以往那样生成大量图片，而后从中费力筛选出符合需求的作品。例如，在中文方面，这一次的GPT-4o可以准确地识别中文，而且不需要输入关键词，只要输入文稿，就可以获得一张信息准确的图片。同时，实现持续的细节修订。比如，给人物换个发色，换双鞋子，它都可以马上响应。

对此，不少业内专家认为，4o的更新，似乎已经超过了“替代人工”的临界点。在今后的几年里，设计、作图将回归“创造力和鉴赏力”。AI工具不光能让他们的想象变成现实，还能让他们的创作效率指数级地跃升。

此外，王煜全也提到，此次GPT-4o展现的能力背后，更多的是OpenAI在大模型“多模态”领域的探索，而“多模态”能力的展现将会是即将发布的GPT-5 能力展现的主要方向。

在他看来，目前业界基本形成一个共识，“多模态将显著降低大模型的幻觉”。包括DeepSeek在内的主流大模型，主要是通过输入文本完成内容输出。在这样的情况下，一旦文本错误，会导致输出结果错误。用错误数据训练也会造成模型“虚幻”。“多模态”的优势在于，让数据的输入后可以在不同角度进行推理论证，从而保证输出结果的准确性。

值得一提的是，国内的大模型也已经在这方面展开，目前已知的是，字节旗下的豆包大模型也推出了SeedEdit，同样可以实现 " 自然语意修图 "，用户只需输入简单的自然语言，便可对图像进行多样化编辑操作。而且目前豆包的 " 图像生成 " 功能是完全免费且不存在限制的，这一波甚至能把开会员的钱也给直接省下来。

可以预见的是，随着 AI 图像编辑技术的不断发展，未来手机、电脑都可能会集成这项功能。届时，无论是对图像处理一知半解的新手小白，还是深谙此道的专业大咖，都能轻松驾驭这一技术，将自己内心对美的独特感悟，以更加直观、生动的方式呈现出来。

来源：环球网科技频道

标签：模态王煜全画风吉卜力吉卜力画风

本文地址：http://news.43b.com.cn/a/1143198.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!