摘要:为什么同样一句提示词,在即梦和Nano Banana里生成的画面差距巨大?本文从底层机制出发,揭示两款工具在“理解能力”与“控制精度”上的本质差异,让你不再被表面参数迷惑。
为什么同样一句提示词,在即梦和Nano Banana里生成的画面差距巨大?本文从底层机制出发,揭示两款工具在“理解能力”与“控制精度”上的本质差异,让你不再被表面参数迷惑。
最近的 AI 绘画圈被两款“新神”搅得沸沸扬扬——谷歌Nano Banana像一颗深水炸弹,在全球范围内掀起巨浪,而两周后字节发布的即梦4.0,也在国内市场搞得风生水起。
然而在这股热潮下,我注意到一个滑稽又耐人寻味的现象:不少内容创作者就像设定好了脚本的机器人,把之前在 Nano Banana 上玩过的那些套路,原封不动地在即梦 4.0 上复刻了一遍,号称什么即梦4.0“邪修”玩法,分享几个“进阶玩法”……
正如 X平台 @dontbesilent所尖锐吐槽的:“还在用 AI把照片变手办的博主,其实是在暗示自己创意枯竭,只会追逐过气的热点。”一句话击中了要害:这场表面上的技术狂欢,背后其实是信息食物链底端的盲目跟风和创意力的匮乏。
更尴尬的是,在铺天盖地的炫技分享下,真正深入的评测内容却少之又少。大家不缺新的 AI 工具“玩法说明书”,但缺的是真正穿透现象看本质的深度评测报告——即梦4.0与 Nano Banana相比到底如何?技术层面上有什么区别?他们背后又是怎样的产品战略?作为AI爱好者,网上吹嘘信息铺天盖地,我到底应该入坑哪一个?
于是今天,我决定当一回那个特立独行的少数派,卷起袖子来一次正儿八经的评测。不玩花活、不止步于喊两句“真香”就草草收场,我要做的是把这两位AI 绘画工具拉到同一个擂台上,来一场直击核心的正面对决。
评测方案评测对象:Google Nano Banana ,使用平台:Gemini官方网站;即梦4.0,使用平台:即梦 AI官方网站。
评测内容/维度:此次评测我会让两边各生成两次作品,择优选出各自的最佳结果进行对比。具体评测维度分为以下几个方面:
生成方式:测试了文生图和图生图两种生成方式,看看在纯文本创作和给定原图再创作这两种条件下,两位选手的表现有何不同。提示词难度:为了考察两者对不同复杂度指令的适应性,部分场景准备了简单提示词和复杂提示词。这样可以观察它们在详细需求和模糊要求两种情况下的输出差异。语言种类:考虑到语言可能影响生成效果,我还针对一些测试场景分别使用中文和英文提示词各一次。毕竟NanoBanana来自国外,训练语料多是英文,而即梦4.0深耕本土,中文语料丰富,来一场中英文双语对决才能全面了解它们在不同语言下的能力长短。场景类型:评测选取了生活场景和商业场景两大类具有代表性的应用情境。例如既有二次元手办这样的创意场景,也会有海报设计这类偏商业实用的场景。说明:本评测耗时两天完成,因个人评测,精力有限,有诸多不足之处,还请见谅。若本评测给你带来了帮助,不妨点个赞,加个关注。
话不多说,咱们开始!
简单结论(后面有详细结论)Nano Banana:像是 AI界的“Photoshop”。一个追求通用理解和图像处理极限的“通用创意引擎”。它的目标是成为一个强大、灵活、上限极高的底层工具,赋能专业人士进行天马行空的创作。OS:今天刚写完文章后,就看到朋友分享的一则消息,正好与我的观点不谋而合。
而即梦4.0:它的目标更聚焦,是想成为一个“AI平面设计师”。一个针对特定商业场景(尤其是电商、营销设计)深度优化的“垂直行业解决方案”。它的目标不是万能,而是精准、高效地搞定商业需求,直接出稿。
评测内容经典热门手办生成
提示词:create a 1/7 scale commercialized figure of thecharacter in the illustration, in a realistic styie and environment.Place the figure on a computer desk, using a circular transparent acrylic base without any text.On the computer screen, display the ZBrush modeling process of the figure.Next to the computer screen, place a BANDAl-style toy packaging box printedwith the original artwork.
本次 Nano Banana胜出。Nano Banana一次抽卡成功(得益于原图主体单一,背景简单),我能明显感觉到Nano Banana在人物细节上,对提示词的理解上,更加到位,尤其是画面更加的写实。反观,即梦4.0画面就像加了深度滤镜,提高了对比度,且有一些粗粝感(物体表面的粗糙或不光滑的质感),这还是我在八张成图中,选取的一张我认为最佳的成图。如下图所示右边Nano Banana成图,左边即梦4.0成图(下文同理)。
OS:我看到有一些人在说即梦4.0更好,更像真实手办。我想说的是:拜托,这个就图一个新鲜,好看,尤其是与自己相似,进而满足自己的分享欲。谁又在乎这个是否与现实真实的手办像不像呢?
九宫格一寸照
提示词:根据用户提供的照片,给出九种完全不同的发型设计(日式韩式的甜美发型),要求输出白底证件照,白色衬衫,输出在一张照片,可以进行不同的发型展示。微微侧面 15 度,微笑。
Nano Banana胜出。本次生成的图片两者差别不大,但即梦4.0没有遵从“输出在一张图片上”的指令,即使我在后两次分别加上了“九宫格形式展示”,以及“九宫格一张图中展示”进行强调了,也不行。OS:即梦4.0是不是篡改了用户的提示词?或者说对用户的提示词进行了优化和扩写?可能经过改写后,没有“输出在一张图片上”的描述了。
为了让即梦能输出在一张图中,我又使用了另一组提示词,且分为简单和复杂,本次是考验即梦4.0对提示词的理解能力。
提示词1:
将其生成一张纯白背景,九宫格排版,分别有九种不同的表情的照片。
提示词2:
帮我生成一张照片:背景为纯白色,排版为九宫格,展示一只宠物的九种不同表情。
第一排:吐舌开心、微张嘴温和、爪靠脸腼腆;
第二排:平静神态、眯眼微笑、歪头好奇;
第三排:睁眼吐舌活泼、张嘴打哈欠慵懒、转头若有所思。真实摄影。
本次依旧是Nano Banana胜出。Nano Banana在简单或复杂提示词的表现都不错。如下图所示(右)复杂提示词的成图。而即梦4.0在简单提示词上成图没大毛病,但是在复杂提示词下却无法保持主体一致性了。OS:这次案例能辅佐我前面猜测:即梦4.0会优化用户提示词。
提示词:将图一人物换成图二中的姿势,专业摄影棚拍摄。
两者差不多,可以说打成平手。Nano Banana和即梦4.0都没有完全遵循我的指令,如 Nano Banana的人物朝向与线框图不一致,而即梦4.0成图中的人物朝向与原图一致,但背景加入了摄影器材,就现实“专业摄影”而言,是不会将摄影器材拍摄进去的。OS:就主观感受上,我更喜欢Nano Banana,毕竟AI味没那么重。
提示词:将图一的背景色换成图二,其他元素不变,比例则为图二的1:1的比例。
Nano Banana胜出。下图所示,Nano Banana会揣测用户的意图,明确用户的真实需求,如即使我将比例参照的图片,错误写成了“图三”,但 Nano Banana还是出色的完成了任务。反观即梦4.0却没有理解我的需求,直接生成了图二背景图,再次生成时,依旧错误。
为了证明即梦4.0无法完成复杂任务。我更换了一个轻松点的任务。提示词:将图片背景更换为纯白色,比例不变。这次即梦4.0出色的完成了任务。不过,头发顶部的细节还是原图不符。如下图所示:
提示词:为一款名为“夏夜沁风”的柠檬味气泡水设计一张电商详情页主图。要求包含产品名“夏夜沁风”,以及广告语“一口喝下整个夏天”,风格清新、有购买欲。
即梦4.0胜出。可以看到Nano Banana中文生成能力还是较差的,出现了字体扭曲和错乱,但是对提示词的理解还是到位,将产品名印在产品上,广告语则放在产品的上方。而即梦4.0不论是文字生成还是成图的整体与细节都很到位,基本可以拿它作为宣传图了。
即然Nano Banana中文生成能力较差,那么英文生成能力呢?
于是我将提示词翻译成英文,再一次进行了尝试。这次Nano Banana反而胜出了,一次成图,不但英文生成正确,且画面布局和风格也不错。反观即梦4.0生成的八张图都无法将产品名字印在产品上,而且令人不解的是出现了即梦4.0对提示词理解不到位的情况,提示词中明显是有个”e-commerce product detail page”(电商产品),这就意味着用户要的是电商产品宣传图。
提示词:把图一贴在图二易拉罐上,文字和背景则发挥你的想象,反正最终要生成一个可直接上架商品,专业摄影。
Nano Banana胜出。这里Nano Banana明显理解了提示词中的“商品”二字,给易拉罐加上了商品“皮肤”,且人物融合上也毫无违和感。反观即梦4.0,人物融合上有点像贴纸,贴上去的,最为关键的是没有给易拉罐加上商品“皮肤”。
提示词:Help me convert this residential floor plan into an isometric photorealistic 3D rendering of the house.(请协助将这份住宅平面图转换为一张等角透视的照片级三维渲染图,以逼真展现房屋的整体空间布局。)
Nano Banana胜出。虽然Nano Banana成图中依旧残留原图的线稿,但线稿中的所有元素都囊括在内了。反观即梦4.0视觉,氛围上比较出色,但缺少原图中的很多元素,相当于作文跑题了,即便使用词很美,最终得分依旧是低分。
OS:是不是原图过于复杂了,即梦4.0不但对提示词有限制,而且对原图复杂度也有限制,否则无法理解并保持一致性?
这是一个服装设计用户的真实需求。来自知乎用户@书荒菌的实操案例:他们把 Nano-Banana 真正用到服装打样前的决策环节。他们有个痛点是——在做样衣之前,想先判断“某块面料是否适配某个版型”,或“已定版型+面料,二者搭不搭”,还常常需要做示意图发客户确认。
Nano Banana胜出。看一下@书荒菌的评价:以前试过多种模型和工具,不是主体走样,就是质感不对,效果不理想。换用 Nano-Banana 后,核心问题基本被解决:在保持“版型/结构线/细节轮廓”不变的前提下,替换不同面料纹理,快速生成“上身效果图”。这样既能让团队内部直观看到面料与版型的匹配度,也能更高效地给客户预览,减少反复打样的成本和周期。
如下图所示,即便提示很简单,但即梦4.0依旧不能完美地完成此任务,八张成图中没有一个跟原服装保持一致的。而 Nano Banana 则一次性成功。另外,能明显看到即梦4.0增加了原图的对比度。
OS:我想@书荒菌还是会继续使用Nano Banana 。另外,这个案例辅佐了我上面的观点,即梦4.0不但对提示词复杂度/任务复杂度有限制,而且对原图复杂性也有限制。
我发现小红书长文的封面不够吸引人,于是找了个大字报的样图,让即梦4.0生成,这算是即梦4.0的主场,故这里不展示Nano Banana 基本都是中文文字错乱,主要考察即梦4.0在中文文字生成上是否也有限制。
提示词1(简单):将这个封面的文字换成:“Gemini Chrome还没捂热,Claude就来炸场了!”,注意整体排版和布局,专业设计。
提示词2(较难):将这个封面的文字换成:“Gemini Chrome还没捂热,Claude就来炸场了!”,将绿色背景放在“Claude”下,注意整体排版和布局,专业设计。
不出所料,即梦4.0完美地完成了简单任务,但在复杂任务上(加圈字效果),失败了。此外,相比较原图字体明显加深了。
在另一组相似的案例中,增加圈字效果(圈住“炸场”两字)指令后,即梦4.0出现了文字错乱,且这次画面的对比度明显增强,加入了粗粝感(颗粒感),在背景和字体边缘,会发现它不像原图那样是平滑纯净的色块,而是增加了一层细微的、类似胶片颗粒的纹理。还有就是背景虚化更强,成图中有意地加强了背景的模糊效果,使得前景的文字更加突出,视觉焦点更集中。如下图所示。
OS:说实话,我不怎么喜欢,这也不在实用,我更希望原图色调没有什么大变化,毕竟要和正文图片的色调保持一致。
我最近创建了一个新公众号,叫“AI有点离谱”,还差一个有趣的头像,于是我让Gemini帮我规划一下,生成了一组提示词:IP吉祥物设计: 核心理念:创造一个能代表“AI有点离谱”的卡通形象。 设计方向: 一个“离谱”的AI助手:可以是一个有点呆萌、出bug的小机器人,或者一个表情搞怪的像素小怪兽。 与“谱”字结合:设计一个以“谱”字为身体的卡通小人,给它加上眼睛和四肢,让它做一些“离谱”的动作。
让我们看看Nano Banana创造能力,总体还行,但还不能让我眼前一亮。
再看即梦4.0,这设计就有点花里胡哨了~
我看着Nano Banana和即梦4.0都无法生成令我满意的头像,于是我抱着试一试态度,去尝试了一下ChatGPT,你猜怎么着,还真有一个令我眼前一亮的设计,完全符合我的期待,哈哈哈,而且它还是个透明的。本次生成四张图,这是第二张图。
接着,我给它加了一个背景,于是“AI有点离谱”公众号的头像就诞生了。哈哈哈,真好看啊。所以,在创作上,大家也不要忘记使用 ChatGPT试一试,说不定有意想不到的惊喜。
好了,经过上面十几个回合的“贴身肉搏”,相信大家已经对即梦4.0和 Nano Banana的脾气秉性有了非常直观的感受。现在,让我们从这些眼花缭乱的测试内容中跳出来,来一场真正的复盘,聊聊这些现象背后的技术本质。
评测结果的“规律”:一个“听话的全才”,一个“偏科的专才”
首先,我们总结一下能从评测中直接观察到的规律:
在处理复杂指令、保持主体一致性、理解微妙的上下文关系上,NanoBanana几乎是碾压式的胜利。无论是“九宫格”任务中对布局指令的严格遵守,还是“建筑户型图”和“样衣示意图”中对原图细节的高度还原,NanoBanana都展现出了一个顶级模型应有的、强大的“指令跟随”能力。而即梦4.0则表现出了明显的“偏科”。它在中文文字生成和特定商业风格(如小红书、电商海报)上表现惊艳,几乎达到了“设计稿”级别。但在面对稍微复杂一点的通用任务时,就显得力不从心,频繁出现不听指令、丢失主体细节、甚至“自由发挥”的情况。为什么会这样?难道是即梦4.0倍后的模型能力不如谷歌Gemini吗?
当然,也有这方面原因。不过,我要探讨的是它们背后两条截然不同的技术路线。
通用基础模型 vs. 垂直领域精调Nano Banana,可以说是典型的“通用基础模型”的产物。你可以把它想象成一个用全世界图书馆的书、博物馆的画、互联网上亿万张图片喂养出来的“通才”。它的特点是:
知识面广,能力均衡:因为它见过的数据足够多、足够杂,所以它对世界有着更广泛、更底层的理解。这解释了为什么它能轻松处理各种天马行空的、跨领域的复杂指令。它就像Photoshop,本身没有预设的“风格”或“目的”,它只是一个极其强大的工具,忠实地执行你的每一个像素级指令。“所说即所得”:它倾向于完全信任用户的输入。你给的Prompt越精确、越复杂,它能给出的结果就越接近你的想象。它不会去“猜测”你是不是想要别的。这种高控制性,对于需要精准创作的专业人士来说至关重要,这与StableDiffusion、Midjourney的设计非常相似。而即梦4.0的行为模式,则指向了另一条路——“垂直领域精调”。你可以把它想象成一位“专才”。它可能和 Nano Banana一样,也学习了海量的通用知识,但在此之后,它的“老板”(字节)又给它找了一位“专业导师”,用成千上万份中国市场的电商海报、社交媒体帖子、广告设计稿等垂直数据,对它进行了“魔鬼式”的专项训练。
OS:大胆猜测一波,可能是字节高层感受到了Nano Banana爆火的压力,内部团队紧急对即梦3.0进行专项训练,仓促下推出的一款产品。
这种“精调”带来了两个直接后果,也完美解释了我们在评测中看到的一切:
“专业领域”的超能力:在中文排版、营销氛围感营造这些方面,即梦4.0之所以能比NanoBanana强一些,正是因为这些“精调数据”让它深刻理解了中文语境下的商业美学。它不再是一个冷冰冰的图像生成器,而是一个被注入了“设计灵魂”的解决方案。“通用能力”的钝化:然而,精调是一把双刃剑。当一个模型被过度训练去适应某个特定领域时,它在其他领域的“通用性”和“灵活性”就可能会下降。这就像一个顶级的广告设计师,你让他去画严谨的建筑施工图,他可能会下意识地加入一些美化和氛围渲染,反而忽略了图纸的精确性。这就是为什么即梦4.0在处理“建筑户型图”和“样衣示意图”时会“跑题”——这些任务超出了它被“精调”过的知识范围。即梦4.0是不是真的优化了用户的提示词?我的答案是:是的。这在技术上被称为“自动提示词重写”。一些 AI产品为了降低用户使用门槛,会在后台内置一个语言模型,先分析用户的原始指令,然后把它“优化”成一个模型更容易理解、更容易出好效果的“标准版”指令,再拿去生成图片。
这下,即梦4.0的很多“迷惑行为”就说得通了:
当你在“九宫格”任务中强调“输出在一张图片上”时,它的“优化器”可能觉得“为用户生成九张高质量单图效果更好”,于是自作主张地修改了你的核心指令。
这种“优化”在简单、常规的任务上可能是“锦上添花”,但在需要精准控制的复杂任务上,就变成了“画蛇添足”,甚至是“灾难”。它破坏了专家用户对生成过程的精确控制。
所以,这再次反映了产品战略的根本差异:Nano Banana把你当成“创作者”,而即梦4.0把你当成“客户”。前者提供工具,后者提供服务。
我应该入坑哪一个?没有最优解,只有最优选讲到这里,结论已经非常清晰了。这场对决,我想说的没有谁胜谁输——双方都在自己的预设战场上,取得了胜利。为了让你更清晰地理解,我做了下面这个总结表:
若你不满意你使用 AI生成的图片,即便你抽卡几次也无济于事,那么你可以尝试去降低任务难度(提示词复杂度)或者降低原图复杂性。
在人物生成时,最好选取一张主体较少,背景简单的图片。当然,若你还是想用这张背景较为复杂的图片,那么,你可以分步骤进行,先让 AI进行抠图,或者更换一个纯色背景,再进行你的最终任务。如 X平台 @AI探路者Tim分享的帖子,这点与我的经验不谋而合。OS:咦,这不就是妥妥的上下文工程吗?
可以广泛收集,打造你专属的“AI工具箱”。还记得我们评测中那个有趣的插曲吗?在 Nano Banana和即梦4.0都搞不定的公众号头像设计上,反而是 ChatGPT给了我们意外的惊喜。
这给了我最重要的一个启示:顶级玩家从不迷信某一个“万能工具”,他们拥有一个丰富的“工具箱”。如我这篇文章提到的一个工作流,在让 AI撰写论文文献综述时,可以先使用 Gemini深度研究输出研究计划,接着使用 ChatGPT进行深度研究,输出文献综述。集各个 AI的优势于一个工作流中。
最后,推荐一下即梦4.0官方发布的《即梦图片4.0模型提示词手册》,足足有上千个案例分享:https://bytedance.larkoffice.com/docx/L4vCdah1DoDg7axVdYGcoplSn9f
好了,以上就是本次分享的全部内容。希望能帮到各位“稀有学生”建立一些认知。若对你有帮助,不妨点个赞,加个关注。
来源:人人都是产品经理