豆包AI生图超进化,一周追上Nano Banana

B站影视 内地电影 2025-09-19 22:13 1

摘要:凭借超强的一致性、推理能力和超快的出图速度,Nano Banana一路碾压GPT-image-1、Flux-1-kontext等竞争对手,迅速成为全球最受欢迎的图像创意模型。

01Seedream 的快速追赶

8月26日,谷歌最新一代文生图模型Nano Banana横空出世。


凭借超强的一致性、推理能力和超快的出图速度,Nano Banana一路碾压GPT-image-1、Flux-1-kontext等竞争对手,迅速成为全球最受欢迎的图像创意模型。


然而仅仅只过了2周,字节跳动就在9月10日发布了新一代图像创作模型Seedream 4.0,并同步部署至豆包app和火山引擎平台。


作为接棒前代 Seedream 3.0 和 SeedEdit 3.0 的模型,Seedream 4.0 采用了同一套构架实现了文生图与通用编辑能力的融合,在多模态推理、出图速度和可用性上实现了显著突破。


在正式发布1周后,Seedream-4-high-res(高分辨率版本)就在大模型竞技场LMArena上反超了Nano Banana,于9月16日正式登顶文生图排行榜。


经过我们的多轮测试,我们几乎可以断言:Seedream 4.0 的能力与 Nano Banana 已经极为接近,甚至在图像画质、汉字生成、时空推理等方面做到了领先。


短短一周时间,Seedream4.0 不仅收获了行业的一致认可,也凭借强大实力迈入全球第一梯队。这背后反映的,是中美两国AI企业之间的模型技术差距的迅速缩小,竞争格局的重塑。


02Seedream4.0 领先在何处

字节Seed团队在推文的标题中是这么形容Seedream 4.0的:它不止会“画”,还更会“想”

在深度体验后,我们能够明显感觉到Seedream 4.0相比于Seedream3.0几乎是一次颠覆式能力提升。如果我们更熟悉的文本大模型的技术模式来比喻的话,几乎就是完成了类似DeepSeek-R1推理模型那种程度的革新。

根据字节Seed团队的技术文档,我们具体将Seedream 4.0的创新点概括为以下几个方面:稳定的一致性、风格化能力、复杂逻辑理解力增强、4K高画质自适应、推理速度跃升。

空口无凭,我们用实测案例说话。如文章开头所言,Seedream 4.0在能力上几乎打平了Nano Banana,因此我们本文所有案例都将Seedream4.0与Nano Banana的生成结果放在一起横向比较,看看孰优孰劣。

首先在一致性方面,Seedream4.0与Nano Banana的能力不相上下。

我们共测试了四组提示词,让模型基于原图和提示词生成造型,考验它们能否在多轮对话中始终维持人物五官外貌的一致性。因为此前我们已经测试了Seedream3.0的案例,因此在此处特别引用它做纵向对比。


最后的结果如图所示,第一行是谷歌Nano Banana,第二行的是字节Seedream4.0,第三行是旧模型Seedream3.0。可以看到,Seedream4.0在人物一致性的表现上极其出色,与Nano Banana性能极为接近,也与3.0形成了显著的差距。


具体看第二、三列“看天空”、“举苹果”的这两组图中,3.0的人物外貌完全变了模样。而在最后一列,4.0对复杂指令遵循能力相比3.0得到了显著提升,甚至比NanoBanana更出色的完成了睁一只眼闭一只眼的wink表情,头顶的猫猫也更接近真实世界。


在风格化能力上,Seedream4.0 的性能比Nano Banana略胜一筹。

在下面这个案例中,我们分别用相同的提示词,让Seedream4.0和Nano Banana根据原图,生成换装、二次元cosplay、赛博朋克和专业摄影风格的照片。从结果可以明显感受到,Seedream4.0的人物一致性、画面美感、光影细节都略优于Nano Banana。

复杂逻辑理解力方面,我们针对二者的时空感知及推理能力进行测试。

第一个案例中我们提出的要求是,根据参考图(下图左一),生成所处位置的高空无人机视角的画面。


从结果上看,Seedream4.0的一致性、场景细节还原度表现与NanoBanana平分秋色。


第二个案例我们参考了字节的官方案例,要求NanoBanana和Seedream4.0参考如下卧室实景图,生成在经过特定时间后,房间内的光影环境等要素的变化,考验两者对于时间与光线画面的理解能力。

结果如下图所示。第一行,Nano Banana虽然理解了夜晚光线较暗,但在它给出的结果也仅仅只是降低了整体画面亮度,调整了色调。但内窗外明显是阳光的感觉而非月光。此外,NanoBanana午夜几乎与深夜没有区别,并且凌晨的钟表数字也出现了幻觉。

对比看来,第二行的 Seedream4.0 对于时空理解的感知明显更优。它不仅明显刻画出傍晚黄昏的光景,对于夜晚房间光线处理也更加优秀,午夜的光线与晚上九点的光线存在明显区别,午夜窗外画了一个月亮来突出氛围。

相比于NanoBanana,Seedream4.0还有一个得天独厚的优势就是汉字输出能力尤为出众。

我们让Seedream4.0分别生成小红书风格的烹饪教程、旅游攻略手帐和历史插画海报,4.0的完成度相当高。在图文布局、文字准确性、整体美感上的表现也可圈可点。

相较而言,NanoBanana的汉字输出能力实属乏善可陈……显然在涉及中文输出的AI生图任务里,Seedream4.0是更优的选择。

Seedream4.0还有一个最令人惊喜的地方,就是它支持秒级高画质图片的输出。

目前用户可以直接在豆包中获得2k分辨率的高清图。而在火山方舟平台上,Seedream4.0则可以支持4k画质图像输出的,4K分辨率足以满足大多数的商业需求。(网址:https://www.volcengine.com/experience/ark?mode=vision&model=doubao-seedream-4-0-250828)

传统图像生成模型需预设分辨率,比例不当会影响画面效果。为此Seedream 4.0还引入了自适应长宽比机制,模型可根据语义需求或参考物体形状自动调整画布,让创意更加自由。


此外,Seedream4.0出图的速度极快。大概10秒以内就能生成所需的2K图片,4K画质虽然需要花费更长时间,但所需间隔也不超过30秒。


03

统一训练范式,中美AI取得阶段性共识

字节Seedream4.0完整版本号是:doubao-seedream-4.0-250828,这代表它的诞生日期是8月28号,而Nano Banana上线的时间是8月26日。


这意味着Seedream4.0和Nano Banana几乎是在同一时间,完成了图像创意模型的跨越式突破。那么二者采取的技术路线到底有哪些联系?模型的训练架构、技术范式都发生了怎样的改变?


当我们深入分析针对这两款模型的说明文档后,我们惊讶的发现,谷歌和字节都不约而同地采取了一个相同的技术创新:联合训练。而这或许正是NanoBanana和Seedream4.0的能力飞升的关键原因。


在字节Seedream4.0的说明文档中,有一个关键词被重点提及——联合训练框架


Seed团队提到,他们在 Seedream 4.0 的完整后训练链路框架中,同时设置了图像编辑和文生图这两个目标任务,并相应的设计了多维度的奖励模型用于强化学习。

在过去,Seedream系列模型的图像编辑修改、文生图是两套独立并行的训练框架,因此过去的Seedream3.0、Seedream Edit实际上是两个完全不同的模型。

但这一次字节却发现,将生图、改图两个能力放在统一框架下进行联合训练并设计统一奖励机制,最终效果显著优于单任务独立训练,模型的指令遵循和画质美感同时获得了全面提升。

而这也促成了Seedream4.0的诞生。


为了应对联合训练的需求,Seed团队还提前构建了大规模可扩展的多模态数据处理链路,并因此打造了深厚的多模态数据基础。团队还提高了VAE的压缩比,让4.0的训练和推理速度相比于3.0提升超 10 倍。


无独有偶,谷歌Nano Banana的训练框架同样也融合了的图像理解和生成两个任务。

尽管目前Nano Banana并没有放出详细的技术文档,但在一则访谈中Nano Banana团队表示:将模型放在统一框架进行训练,模型的多种模态能力会产生正向的迁移。他们对这一思路的解释是,就像人类会画思维导图来辅助自己理解复杂概念一样,模型也能通过生成图像这个过程,来同步强化自身的图像理解能力。

从字节与谷歌的技术路线上,我们不难看出中美头部公司在AI模型的底层技术水平已经相当接近。虽然在过去,行业对于中美AI差异化的判断往往都是美国主导技术创新,中国公司更加擅长产品化落地。但自DeepSeek-R1打响第一炮之后,到目前为止,我们已经见证了国产团队在AI底层技术上的快速追赶。过去所谓的美国技术绝对主导的行业格局已经发生了明确的转变。

04尾声

当前,利用 AI 对传统互联网应用生态进行彻底改造已然成为主流趋势。


无论是豆包Seedream4.0抑或是谷歌NanoBanana,高度一致性、极速出图、低成本重复对话,这些功能瞄准的正是PhotoShop等传统图像编辑软件的市场。它们的爆火本质上都反映了垂直、专用的AI模型正在加速颠覆传统软件的应用生态。


今年以来我们能够频繁看到,以腾讯、阿里、字节、百度为代表的国内互联网大厂,除了在推进自家原生AI应用之外,另一大工作重点就是利用 AI 对已有成熟业务进行彻底改造。例如近期在近期涌现出来的腾讯会议Agent、阿里的淘宝AI导购等创新功能,都依靠AI实现了用户流量、营收方面的增长。


正如人们一直呼唤的那样:每一个大众熟知的场景都值得用AI重新改造一遍。老树焕新芽,或许这才是实现AI技术普惠平权落地性最强的路径。

来源:新财富杂志

相关推荐