摘要:机器之心原创编辑:杜伟「Photoshop is dead」,已经成为最近 AI 创作者圈中讨论最热的话题之一。随着图像编辑与生成模型进入到了又一个集中爆发期,这个专业创意软件长久以来的王座地位受到了前所未有的冲击。尤其是引领这波多模态生图技术升级潮流的谷歌
机器之心原创编辑:杜伟「Photoshop is dead」,已经成为最近 AI 创作者圈中讨论最热的话题之一。随着图像编辑与生成模型进入到了又一个集中爆发期,这个专业创意软件长久以来的王座地位受到了前所未有的冲击。尤其是引领这波多模态生图技术升级潮流的谷歌 Nano Banana 以及字节 Seedream4.0、阿里 Qwen-Image-Edit-2509,它们涌现出了更多新的能力与玩法,比如 OOTD 穿搭、文字渲染、生成电影分镜。在无需掌握深度修图技能的前提下,这些模型使得创作者开始更多地关注「如何让生图结果更可控、更有创意、更具产品化价值。」
论文地址:https://arxiv.org/pdf/2510.06679v1作为一次底层架构的技术升级,DreamOmni2 以系统化的思路贯通了数据、框架与训练三个关键环节,构建起多模态生成的统一体系。结语去年 12 月,贾佳亚团队发布 DreamOmni,迈出了探索图像生成与编辑任务大一统的第一步。如今 DreamOmni2 的开源,则是这一方向的深化与延展。最开始,基于指令的编辑还只能处理简单的添加、删除与替换任务,而现在已经能够理解复杂的语义指令,并利用参考图像实现风格迁移、结构重组、抽象属性编辑等高级任务。基于指令的生成也不再局限于单一物体的场景构建,而能更灵活地处理多物体与抽象概念的协同组合,实现更高层次的语义协调与创意控制,拓宽了 AI 视觉创作的表现空间。对于整个行业而言,DreamOmni2 的系统性创新,让模型的多模态理解、编辑与生成能力做到自然衔接与切换,为下一代 AI 视觉创作工具的智能进化提供了参考。此外,DreamOmni2 是贾佳亚团队过去两年深耕多模态领域的一个缩影与延续。团队在图像、视频与语音等多个方向发力,仅在去年就陆续推出多模态视觉语言模型 、AI 图像与视频生成控制工具 以及 DreamOmni 等多项代表性研究;在语音方向则推出了富有表现力、长时程的语音生成模型 MGM-Omni。通过这些工作,贾佳亚团队已逐步构建起覆盖感知、理解与生成全链路的多模态技术栈。加之很多模型选择向社区开放,进一步增强了其自身多模态技术的影响力。随着以 Nano Banana、DreamOmni2 以及 Sora 2 为代表的视觉生成模型持续引爆社区,AI 创作范式正在发生翻天覆地的变化,创作者可以进行更加深入的人模共创。连同 DreamOmni2 在内,贾佳亚团队的一系列开源工作将成为推动全球多模态创作生态演进的重要力量。© THE END转载请联系本公众号获得授权投稿或寻求报道:liyazhou@jiqizhixin.comAI开源项目 · 目录上一篇斯坦福具身智能大佬引用,Huggingface官方催更:北京人形开源WoW具身世界模型继续滑动看下一个轻触阅读原文机器之心向上滑动看下一个机器之心赞分享推荐 写留言原标题:《谷歌最强AI,被港科大开源超了?让海外创作者喊出「King Bomb」的P图大杀器来了》 来源:Pia科技
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!