摘要:我一直在测试谷歌最新生成式 AI 模型的图像编辑功能,你也可以试试。这个名为 Gemini 2.5 Flash Image 的模型,升级了在 Gemini 中原生编辑照片的能力。
我一直在测试谷歌最新生成式 AI 模型的图像编辑功能,你也可以试试。这个名为 Gemini 2.5 Flash Image 的模型,升级了在 Gemini 中原生编辑照片的能力。
AI 爱好者称它为"nano bananas"模型,这个称呼源于谷歌高管的一系列预告。谷歌今年在生成式媒体模型上投入巨大,在年度 I/O 开发者大会上发布了图像和视频生成器模型的更新版本。谷歌的 AI 视频生成器 Veo 3 凭借同步音频功能令人惊叹,这在 AI 巨头中尚属首次。创作者们已经使用谷歌的 AI 电影制作工具 Flow 制作了超过 1 亿个 AI 视频。
我花了大量时间测试 AI 创意软件,在所有"香蕉"热潮中看到谷歌的最新发布让我很兴奋。但我对 2.5 Flash Image 的测试表明,华丽的入场并不意味着总能达到预期。以下是我使用 Gemini nano bananas 的体验:好的、坏的和令人沮丧的方面。
**表现出色的方面**
Gemini 香蕉模型在向现有图像添加元素方面表现惊人,能够很好地将 AI 生成的元素融入到你拍摄的任何图片中。它还保持了相当稳定的角色一致性水平——这意味着我照片中的人物在经过 AI 处理后不会过度扭曲或变形。这些都是 AI 图像程序的重要特征,谷歌表示一直在努力改进这方面。
在我和姐姐的照片中可以看到这两个特点。编辑版本(右侧)中我们的整体外观没有改变,展现了角色一致性。我要求 Gemini 添加一个看起来像我们两个的第三个姐姐,它通过在我们之间添加第三个女性出色地完成了这个任务。
我对 Gemini 生成完整图像的速度也印象深刻。任何一分钟以下的时间都值得称赞,Gemini 经常在 15 秒内处理请求。我也很欣赏它为所有创建和编辑的图像添加水印——即使我不喜欢科技公司将闪闪发光表情符号用于 AI,但拥有一些 AI 生成内容的标记非常重要。谷歌的 SynthID 和幕后工作也有助于区分 AI 内容和人工创建的图像。
Gemini 在完全 AI 图像创建方面也很出色,但我建议使用其 Imagen 4 或其他 AI 图像生成器——它们有更多动手控制和设置,能够以更少的工作更接近你想要的效果。
**真正不起作用的方面**
Gemini bananas 有严重的局限性。它自动生成方形图像,要求将图像调整为其他尺寸的后续提示被忽略or失败。
我还注意到 Gemini 降低了我许多照片的分辨率。我主要用 iPhone 16 拍照,它有出色的摄像头,但经过 Gemini bananas 模型处理后,那些精细细节经常变得模糊。这很令人恼火,不会赢得任何摄影师的青睐。
我反复尝试让 Gemini 处理对我来说手动操作会很困难的照片编辑。这是照片编辑中 AI 应该擅长的一个领域——自动化繁琐但细节密集的编辑。遗憾的是,Gemini 在提示遵循方面真的很困难,意思是它没有按我要求的去做。
我多次尝试让 Gemini 从《Freakier Friday》电影海报的照片中去除反射,但它们顽固地保留着。我越是试图让它去除反射,每次提示后图像质量就越差。曾经清晰的文字最终在我放弃时变得难以辨认,更不用说对林赛·罗韩和杰米·李·柯蒂斯面部造成的意外且可怕的损害。
Gemini nano bananas 在生成不同尺寸图像方面表现困难。调整大小和裁剪图像是核心照片编辑过程,但 Gemini 没有——或不能——处理我提示中的简单尺寸指导。
我就分辨率和尺寸问题联系了谷歌,发言人表示这家科技公司"意识到并正在积极解决这两个问题。这是我们之前模型的重大更新,但我们将继续改进模型。"
总的来说,Gemini nano bananas 向我证明了谷歌对继续在生成式媒体领域占主导地位是认真的。但它有显著的缺陷,过于专注于生成新元素,而不是使用 AI 来改进和调整常见的照片问题。目前,nano bananas 模型最适合想要快速进行大编辑的 Gemini 粉丝。对于我们这些寻找更精确工具的人,我们必须等待谷歌的下一次重大更新或找到其他程序。
**Gemini nano bananas 可用性、定价和隐私**
你不需要做任何事情来访问新模型;它会自动添加到基础 Gemini 2.5 Flash 模型中。Gemini 免费提供,更多模型和更高使用限制在谷歌每月 20 美元起的 AI 计划中提供。
如果你是付费订阅者,你也可以通过 Google AI Studio 访问该模型。从那里,你只需要上传图像并输入提示。每个提示使用一到两千个 Token,具体取决于所需的详细程度。Adobe Express 和 Firefly 用户现在也可以访问新模型。
谷歌的 Gemini 隐私政策表示,它可以使用你上传的信息来改进其 AI 产品,这就是为什么公司建议避免上传敏感或私人信息。公司的 AI 禁止使用政策也禁止创建非法或滥用材料。
Q&A
Q1:Gemini 2.5 Flash Image模型有什么特色功能?
A:Gemini 2.5 Flash Image被AI爱好者称为"nano bananas"模型,主要升级了在Gemini中原生编辑照片的能力。它擅长向现有图像添加AI生成元素,保持较好的角色一致性,处理速度通常在15秒内完成,并会为所有编辑图像添加水印标记。
Q2:使用Gemini图像编辑功能会遇到什么问题?
A:主要问题包括:只能生成方形图像,无法调整为其他尺寸;会降低原照片的分辨率,模糊精细细节;在复杂编辑任务中提示遵循能力差,比如去除反射等操作经常失败;更适合生成新元素而非改进常见照片问题。
Q3:如何获取和使用Gemini图像编辑功能?
A:新模型会自动添加到基础Gemini 2.5 Flash模型中,Gemini免费提供使用。付费订阅者(每月20美元起)可通过Google AI Studio访问,只需上传图像并输入提示即可。Adobe Express和Firefly用户现在也能访问该功能。
来源:至顶网一点号