摘要:谷歌近日推出了备受瞩目的 Gemini 2.5 Flash Image,代号 Nano Banana,这一先进的 AI 图像生成与编辑模型为创意工作者和开发者带来了前所未有的体验。
谷歌近日推出了备受瞩目的 Gemini 2.5 Flash Image,代号 Nano Banana,这一先进的 AI 图像生成与编辑模型为创意工作者和开发者带来了前所未有的体验。
Nano Banana 不仅在图像生成速度和成本效益上延续了 Gemini 2.0 Flash 的优势,还在图像质量和创意控制上实现了质的飞跃。无论你是想融合多张图片、保持角色一致性,还是通过自然语言进行精准编辑,Nano Banana 都能轻松应对。
什么是 Nano Banana?
Nano Banana 是谷歌 DeepMind 团队开发的 Gemini 2.5 Flash Image 模型的昵称,因其在早期演示中的出色表现迅速在社交媒体(如 X 和 Reddit)上走红。这款多模态模型不仅能从文本生成高质量图像,还能对现有图像进行精确编辑,特别适合需要高一致性和语义理解的场景。
Nano Banana 通过 Gemini API、Google AI Studio(面向开发者)以及 Vertex AI(面向企业)提供服务,所有生成或编辑的图像均带有不可见的 SynthID 数字水印,确保内容可追溯,符合 AI 伦理标准。
核心功能:解锁无限创意可能
Nano Banana 的核心优势在于其强大的功能组合,以下是其四大亮点:
1. 角色一致性:让你的形象始终如一
图像生成中的一大难题是保持角色或物体在多次编辑中的一致性。Nano Banana 完美解决了这一问题:
场景切换:将同一角色置于不同环境,如从现代都市到复古年代,角色特征依然精准保留。
多角度展示:为产品生成多角度视图,保持细节一致,适合电商或品牌宣传。
品牌资产统一:生成一致的品牌视觉元素,提升专业度。
谷歌在 Google AI Studio 中提供了一个模板应用,展示了如何通过代码自定义角色一致性功能,开发者可以轻松在此基础上构建自己的应用。
2. 基于自然语言的精准编辑
Nano Banana 支持通过简单文本指令进行复杂图像编辑,无需专业软件也能实现专业效果。例如:
局部调整:模糊背景、去除衣物污渎、调整姿势或为黑白照片上色。
复杂变换:将人物置于全新场景,如“将照片背景换成巴黎咖啡馆”或“给角色换上绿色夹克”。
模板化设计:开发者可用于生成统一的房地产房源卡、员工徽章或产品目录。
Google AI Studio 提供了一个照片编辑模板应用,内置用户界面和基于提示的控件,让用户可以直观体验这些功能。
3. 多图像融合:创意无限拼接
Nano Banana 能够将多张图像无缝融合,创造全新场景:
产品植入:将产品融入生活场景,快速生成逼真的营销素材。
环境重塑:用新纹理或配色方案重新设计房间。
创意合成:将多个物体或人物融合到单一画面,适合讲故事或艺术创作。
Google AI Studio 的多图像融合模板应用让用户可以拖放产品到新场景,快速生成高质量图像。
4. 世界知识整合:更智能的图像生成
与其他图像生成模型不同,Nano Banana 利用 Gemini 的世界知识库,确保生成内容更符合现实语义。例如,它能理解复杂场景的上下文,生成更真实、符合逻辑的图像,减少 AI “幻觉”问题。Google AI Studio 的模板应用展示了这一功能,用户可以通过手绘图表与模型交互,完成复杂的编辑和问答任务。
免费体验:通过 Gemini 应用(支持 Android、iOS 和 Web)免费试用,专业版订阅可解锁更多功能和更高配额。
如何开始使用 Nano Banana?
无论你是普通用户还是开发者,Nano Banana 都提供了多种接入方式:
1. 普通用户:通过 Gemini 应用快速上手
下载 Gemini 应用(Android、iOS 或 Web 版),切换到图像工具。
上传照片并输入自然语言指令,如“将背景换成星空”或“给角色加个帽子”。
免费试用基础功能,或订阅专业版以获得更多生成次数和更高一致性。
2. 开发者:通过 API 和 Google AI Studio 构建
Google AI Studio:提供模板应用(如图像编辑、角色一致性和多图像融合),支持快速原型设计和代码导出到 GitHub。
Gemini API 和 Vertex AI:适合将 Nano Banana 集成到现有工作流或构建企业级应用。需创建 Google Cloud 项目并启用相关 API。
3. 企业用户:Vertex AI 提供合规支持
Vertex AI 提供企业级配额、合规性和扩展支持,适合大规模部署,如生成产品目录或营销素材。
与其他 AI 图像工具的比较
Nano Banana 在多个方面超越了其他主流图像生成模型:
与 OpenAI GPT-4o 相比:Nano Banana 在角色一致性和局部编辑精度上更胜一筹,尤其适合需要高保真的场景。
与 Midjourney 相比:Midjourney 以视觉美感著称,但 Nano Banana 的语义理解和多图像融合能力更强。
与 FLUX 相比:FLUX 在 API 成本上占优,但 Nano Banana 的低延迟和高一致性更适合生产环境。
与 Adobe Firefly 集成:Nano Banana 已与 Adobe Firefly 和 Express 集成,为创意专业人士提供无缝体验。
实际应用场景
Nano Banana 的多功能性使其适用于多种场景:
内容创作者:为自媒体生成引人入胜的视觉内容,如故事板、短视频封面或社交媒体素材。
电商与营销:快速生成多角度产品展示图或品牌一致的广告素材。
教育与培训:通过交互式图像生成工具辅助教学,如动态图表或虚拟场景模拟。
开发者:构建创新的图像编辑应用,如个性化头像生成器或虚拟试衣间。
为什么选择 Nano Banana?
Nano Banana 的发布标志着 AI 图像生成与编辑领域的重大突破。它不仅提供了低延迟和高性价比的解决方案,还通过角色一致性、多图像融合和自然语言编辑功能,为用户带来前所未有的创意控制。无论你是自媒体创作者、开发者还是企业用户,Nano Banana 都能帮助你将创意快速变为现实。
Gemini 2.5 Flash Image 的发布,标志着AI图像生成和编辑技术迈向了一个新的里程碑。无论是内容创作者、设计师、开发者,还是普通用户,都将从中受益,享受前所未有的创意自由和便利。未来,我们期待看到更多基于 nano-banana 的创新应用涌现,共同开启图像创作的全新篇章!
nano-banana应用实例
生成一个女孩cosplay这张插画的照片,背景设置在Comiket
用这两个角色创作一个令人上瘾的12部分故事,包含12张图像,讲述经典的黑色电影侦探故事。故事关于他们寻找线索并最终发现的失落的宝藏。整个故事充满刺激,有情感的高潮和低谷,以精彩的转折和高潮结尾。不要在图像中包含任何文字或文本,纯粹通过图像本身讲述故事
为人物生成绘画过程四宫格,第一步:线稿,第二步平铺颜色,第三步:增加阴影,第四步:细化成型。不要文字
为图一人物化上图二的妆,还保持图一的姿势
分析这张图片。用红笔标出可以改进的地方
数码单反相机的分解图,展示了其所有配件和内部组件,例如镜头、滤镜、内部组件、镜头、传感器、螺丝、按钮、取景器、外壳和电路板。保留了数码单反相机的红色装饰。
API 代码实现
# 图片编辑from google import genaifrom PIL import Imagefrom io import BytesIOclient = genai.Clientprompt = "Create a picture of my cat eating a nano-banana in a fancy restaurant under the gemini constellation"image = Image.open('/path/to/image.png')response = client.models.generate_content( model="gemini-2.5-flash-image-preview", contents=[prompt, image],)for part in response.candidates[0].content.parts: if part.text is not None: print(part.text) elif part.inline_data is not None: image = Image.open(BytesIO(part.inline_data.data)) image.save("generated_image.png")Create a picture of my cat eating a nano-banana in a " "fancy restaurant under the Gemini constellation"
from google import genaifrom google.genai import typesfrom PIL import Imagefrom io import BytesIOclient = genai.Clientprompt = ( "Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme")response = client.models.generate_content( model="gemini-2.5-flash-image-preview", contents=[prompt],)for part in response.candidates[0].content.parts: if part.text is not None: print(part.text) elif part.inline_data is not None: image = Image.open(BytesIO(part.inline_data.data)) image.save("generated_image.png")Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme
Gemini 可以通过对话方式生成和处理图片。你可以通过文字、图片或两者结合的方式向 Gemini 发出提示,从而以前所未有的控制力来创建、修改和迭代视觉内容:
Text-to-Image:根据简单或复杂的文本描述生成高质量图片。图片 + Text-to-Image(编辑):提供图片,并使用文本提示添加、移除或修改元素、更改风格或调整色彩分级。多图到图(合成和风格迁移):使用多张输入图片合成新场景,或将一张图片的风格迁移到另一张图片上。迭代优化:通过对话逐步优化图片,进行细微调整,直到达到理想效果。高保真文本渲染:准确生成包含清晰易读且位置合理的文本的图片,非常适合用于徽标、图表和海报。其他图片生成模式
Gemini 还支持其他基于提示结构和上下文的图片互动模式,包括:
文生图和文本(交织):输出包含相关文本的图片。图片和文本转图片和文本(交织):使用输入图片和文本创建新的相关图片和文本。多轮图片修改(聊天):以对话方式持续生成和修改图片。如需将效果从“好”提升到“出色”,请将以下专业策略融入工作流程。
内容要非常具体:您提供的信息越详细,您就越能掌控结果。不要使用“奇幻盔甲”,而是详细描述:“华丽的精灵板甲,蚀刻有银叶图案,带有高领和猎鹰翅膀形状的肩甲。”提供背景信息和意图:说明图片的用途。模型对上下文的理解会影响最终输出。例如,“为高端极简护肤品牌设计徽标”会比“设计徽标”产生更好的结果。迭代和优化:不要期望第一次尝试就能生成完美的图片。利用模型的对话特性进行小幅更改。然后,您可以继续提出提示,例如“效果很棒,但能让光线更暖一些吗?”或“保持所有内容不变,但让角色的表情更严肃一些。”使用分步说明:对于包含许多元素的复杂场景,请将提示拆分为多个步骤。“首先,创作一幅清晨薄雾笼罩的宁静森林背景。然后,在前景色中添加一个长满苔藓的古老石祭坛。 最后,在祭坛上放置一把发光的剑。”使用“语义负提示”:不要说“没有汽车”,而是积极地描述所需的场景:“一条空旷的荒凉街道,没有任何交通迹象。”控制相机:使用摄影和电影语言来控制构图。例如wide-angle shot、macro shot、low-angle perspective等字词。现在你可以到 Google AI studio 上面免费使用这一强大的图片生成模型。
来源:人工智能研究所