告别 Photoshop?谷歌新 AI 能让你通过对话编辑图像

B站影视 内地电影 2025-03-19 15:03 1

摘要:谷歌推出了一款新的AI模型,它可以像生成文本一样轻松地生成或编辑图像——作为其聊天机器人对话的一部分。虽然结果并不完美,但在不久的将来,每个人都有可能通过这种方式操作图像。

全新实验性AI支持无需技能的照片编辑,包括去除水印。但它并不完美


谷歌推出了一款新的AI模型,它可以像生成文本一样轻松地生成或编辑图像——作为其聊天机器人对话的一部分。虽然结果并不完美,但在不久的将来,每个人都有可能通过这种方式操作图像。


上周三,谷歌扩大了Gemini 2.0 Flash原生图像生成功能的访问权限,使这一实验性功能对所有使用Google AI Studio的用户开放。此前,该功能自去年十二月以来仅限于测试人员使用,这一多模态技术将原生文本和图像处理能力集成到一个AI模型中。


新模型名为“Gemini 2.0 Flash(图像生成)实验版”,上周并未引起广泛关注,但由于其具备去除图像水印的能力——尽管会产生伪影并降低图像质量——近年来几天来受到了更多关注。


但这并不是唯一的功能。Gemini 2.0 Flash可以添加物体、移除物体、修改场景、改变光线、尝试改变图像角度、缩放以及执行其他转变——其成功程度因主题、风格和图像而异。


为了实现这一点,谷歌在大量图像(转换为令牌)和文本数据集上训练了Gemini 2.0。该模型对图像的“知识”与其从文本来源获得的世界概念知识位于同一神经网络空间,因此它可以直接输出图像令牌,这些令牌被转换回图像并反馈给用户。


将图像生成集成到AI聊天中本身并不新鲜——去年九月,OpenAI将其图像生成器DALL-E 3集成到ChatGPT中,其他科技公司如xAI也效仿了这一做法。但直到现在,这些AI聊天助手中的每一个都是调用一个独立的基于扩散的AI模型(其合成原理与大型语言模型不同)来生成图像,然后将这些图像返回给用户的聊天界面。在这种情况下,Gemini 2.0 Flash既是大型语言模型(LLM),又是AI图像生成器,合二为一。


有趣的是,OpenAI的GPT-4o也具备原生图像输出功能(OpenAI总裁Greg Brock曾在去年某个时候在X上暗示过这一功能),但该公司尚未发布真正的多模态图像输出能力。一个原因可能是,真正的多模态图像输出在计算上非常昂贵,因为每张输入或生成的图像都由令牌组成,这些令牌成为图像模型一次又一次通过每个后续提示运行的上下文的一部分。考虑到创建一个真正视觉全面的多模态模型所需的计算需求和训练数据量,图像的输出质量目前还不一定比扩散模型更好。


OpenAI之所以尚未推出,另一个可能的原因是“安全”相关的考虑:类似于训练有音频的多模态模型可以吸收样本人声音的短片段,然后完美地模仿它(这就是ChatGPT的高级语音模式的工作原理,它使用的是得到授权模仿的配音演员的片段),多模态图像输出模型在适当的训练数据和计算支持下,能够以相对轻松和令人信服的方式伪造媒体现实。拥有足够好的多模态模型,潜在的、破坏性的深度伪造和照片操纵可能比现在更加容易制作。


实地测试

那么,Gemini 2.0 Flash究竟能做些什么?值得注意的是,其支持对话式图像编辑,允许用户通过自然语言对话在多个连续提示中迭代优化图像。你可以与它对话,告诉它你想添加、移除或更改什么。虽然并不完美,但这是科技界新型原生图像编辑能力的起点。


我们对Gemini Flash 2.0进行了多项非正式的AI图像编辑测试,结果如下。例如,我们从一个草坪上的图像中移除了一只兔子。我们还从一个凌乱的车库中移除了鸡。Gemini会根据最佳猜测填充背景。不需要克隆刷——小心,Photoshop!



我们还尝试向图像中添加合成物体。始终警惕媒体现实的崩塌,被称为“文化奇点”,我们在作者从飞机窗户拍摄的照片中添加了一个UFO。然后我们尝试添加了一个野人和一个鬼魂。结果不够真实,但该模型也仅在有限的图像数据集上训练(更多内容将在下文提及)。



接着,我们在一张Atari 800屏幕(《巫师之怒》)的照片中添加了一个电子游戏角色,结果可能是这组中最真实的图像合成结果。你可能看不到,但Gemini添加了与显示器特性相匹配的逼真CRT扫描线。



Gemini还可以以新颖的方式扭曲图像,例如“缩小”图像到一个虚构的场景,或为一个EGA调色板角色赋予身体,然后将其置入冒险游戏中。



当然,你也可以移除水印。我们尝试从Getty Images的图像中移除水印,效果不错,尽管生成的图像在分辨率和细节质量上远不及原图。最终,如果你的脑海中能描绘出一张没有水印的图像,AI模型也能做到。它会根据训练数据,用最合理的结果填充水印所在的位置。



最后,我们知道你可能已经厌倦了在电视机旁边看到野蛮人(按传统),所以我们试了一下。起初,Gemini并没有在野蛮人图像中添加CRT电视机,于是我们要求它添加一个。



然后,我们让电视机着火了。



总的来说,Gemini生成的图像在质量和细节上并不完美,但我们实际上对这些图像除了输入请求外并没有进行任何编辑工作。Adobe Photoshop目前允许用户使用基于书面提示的“生成填充”AI合成来操作图像,但还不如这种方式自然。我们可以预见,未来Adobe可能会添加类似的对话式AI图像编辑流程。


多模态输出开启新可能

拥有真正的多模态输出为聊天机器人开启了有趣的新可能性。例如,Gemini 2.0 Flash可以玩互动图形游戏,或生成具有一致插图的故事,在多个图像中保持角色和场景的连续性。虽然还不完美,但角色一致性是AI助手的新能力。我们试用了之后感觉相当疯狂——特别是当它从另一个角度生成我们提供的照片视图时。



文本渲染是该模型的另一个潜在优势。谷歌声称,内部基准测试显示Gemini 2.0 Flash在生成包含文本的图像时表现优于“领先的竞争模型”,使其在创建集成文本的内容方面具有潜力。根据我们的经验,结果并不是那么令人兴奋,但它们是可读的。



尽管Gemini 2.0 Flash目前存在一些不足,但真正的多模态图像输出的出现被视为AI历史上的一个显著时刻,因为它预示着如果技术继续进步,将带来什么可能。如果你想象一个未来,比如十年后,一个足够复杂的AI模型能够实时生成任何类型的媒体——文本、图像、音频、视频、3D图形、3D打印的实物对象和互动体验——你基本上就拥有了一个全息甲板,但没有物质复制。


回到现实,多模态图像输出仍处于“起步阶段”,谷歌也认识到这一点。回想一下,Flash 2.0旨在成为一个更小、更快、更便宜的AI模型,因此它尚未吸收互联网的全部广度。所有这些信息在参数数量上占用了大量空间,更多的参数意味着更多的计算。相反,谷歌通过提供一个经过策划的数据集,并可能包含有针对性的合成数据,来训练Gemini 2.0 Flash。因此,该模型并不“了解”世界上所有的视觉内容,谷歌本身也表示,训练数据是“广泛和通用的,而不是绝对或完整的。”


这只是花哨地说图像输出质量尚不完美——但未来有很大的改进空间,随着训练技术的进步和计算成本的下降,可以整合更多的视觉“知识”。如果这个过程变得像我们在基于扩散的AI图像生成器(如Stable Diffusion、Midjourney和Flux)中看到的那样,多模态图像输出质量可能会在短时间内迅速提升。准备好迎接一个完全流动的媒体现实吧。

来源:黑客技术分享

相关推荐