摘要:继 Gemini、GPT-4o、豆包 AI 等图像模型陆续“用嘴改图”之后,又一款更猛的图像编辑模型来了——Flux Kontext,由 Flux 模型官方团队亲自操刀推出。
原文作者:言川Artie
大家好,我是言川。
继 Gemini、GPT-4o、豆包 AI 等图像模型陆续“用嘴改图”之后,又一款更猛的图像编辑模型来了——Flux Kontext,由 Flux 模型官方团队亲自操刀推出。
无论是角色 / 主体一致性、图像转绘、风格迁移、局部精修,还是图像内文字替换这些 AI 生图的老大难问题,它几乎全都解决了,先看我跑的案例:
那么本篇文章,我就带大家把 Flux Kontext 的真实能力拆个底朝天。
另外,我还在文末整理了一份「AI 自动写提示词的指令模板」,以及两套完整的商业设计案例分享给大家。
废话不多说,开肝。
1. 模型介绍
Flux Kontext 是 Black Forest Labs 推出的最新生成式图像模型套件,它采用了创新性的流匹配(Flow Matching)架构,打破了传统“文本编码器 + 扩散模型”各自为战的模式。
通俗点说,过去我们是把文字和图像分开处理,而 Flux Kontext 则是把文本提示词和参考图像统一编码成一个“上下文”序列。这样一来,模型不仅能理解你想表达的视觉概念,还能精准识别你提供的语义指令,实现真正意义上的“所见即所得”。
2. 图像编辑能力
① 角色一致性
Flux Kontext 内置了高级的上下文理解与角色一致性维护机制,能够准确识别并提取图像中的核心视觉概念。即便经过多轮迭代编辑,也能确保关键元素(如人物面貌、构图布局等)依旧保持稳定。
如下图所示,我们以原始图像为基础,连续进行了六轮不同指令的修改。
提示词模板:「Change the background to a bustling city street at night with vibrant neon lights. 」Maintain the woman's pose, facial features, hairstyle, outfit
注:「」中内容可根据实际修改目标进行替换。
整体来看,角色一致性的表现确实不错——但也发现了一些问题:模型在处理亚洲人像时,效果相对一般,推测是因为训练数据中这类样本较少,导致模型对细节的还原度不够。
② 局部精修
Flux Kontext 支持像素级的局部编辑,也就是说,你可以只动图像中的某一小块内容,比如移除照片角落的杂物、调整产品包装上某一处颜色,而不会对图像的其他区域造成影响。
比如,上传一张小米 YU7 的实拍图,在保持车辆外观、拍摄场景不变的前提下,仅修改车身颜色。
提示词模板:Change the car color to「bright yellow」. Keep the car's model, reflections, lighting, and background exactly the same.
注:「」内为可自定义的颜色内容。
还支持对人物局部特征进行定向修改,比如更换服装、调整发型,甚至改变人物的动作姿势,而其他元素(如面部特征、构图背景等)则会被完整保留。
提示词模板:「Replace the man's suit with a casual outfit consisting of a white T-shirt and blue jeans. 」Maintain his facial features, hairstyle, pose, and background exactly the same.
注:「」中的内容可替换为你需要修改的部分描述。
③ 风格迁移
Flux Kontext 还具备强大的风格迁移能力。你可以通过上传一张参考图,让模型将其风格“迁移”到新生成的图像中;也可以结合提示词,把已有图像转换成不同的艺术风格。
首先,通过提示词直接对图像进行风格转换。
提示词模板:Transform the image into a「desired style」, while preserving the subject's facial expression, pose, composition, and background elements.
注:「」中的内容可替换为你想要应用的风格。
其次,你只需输入一张参考图,模型就能提取其视觉风格,并将这种风格应用到全新的画面场景中。
提示词模板:Using the style of the reference image, generate「replaceable scene description」.
注:「」中的内容可替换新的图像提示词。
接下来测试几个案例:
提示词:Using this style, generate a serene lakeside cabin surrounded by autumn foliage.
提示词:Using this style, generate a female student wearing a British-style school uniform, against a black background, with a bow tie, showcasing an elegant posture.
提示词:Using this style, generate a woman in traditional Chinese attire standing in an ancient courtyard, holding a folding fan with an elegant demeanor.
提示词:Using this style, generate a punk-style girl wearing a leather jacket standing in front of a graffiti wall, with a confident expression.
④ 文字识别与替换
Flux Kontext 在图像文字编辑方面的表现也非常亮眼。它不仅能准确识别图片中的文字内容,还能用你指定的新文本进行替换,同时自动匹配原有的字体风格、排版结构以及光影效果,整体呈现毫无违和感。
在编写提示词时,我建议采用定向修改的方式——比如你想替换图中顶部标题的文字,就直接在提示词中写明原文内容和目标文字。
提示词:Change the text "MYSTIC ROCK" in the picture to "YANCHUAN NB".
如果图中只有一段文字,那么提示词你可以这样写:
提示词:Change the text in the picture to "ZhiShe".
此外,这项文字识别能力还可以用于去除图像中的水印。借鉴 @歸藏 大佬的案例,我们实测发现,通过简单的提示词,模型也能智能识别并抹除水印区域,并且处理效果相当自然。
提示词:Remove the watermark from the picture.
不过需要注意的是:如果图片中只有一个水印,且是中文文字,那么仅用“去除水印”的泛化表达可能效果不佳。实测发现,这种情况下模型往往无法准确识别目标区域。
建议回到前面提到的定向指定修改方法,明确指出你想删除的具体内容。
提示词:Remove the "豆包 AI" watermark from the picture.
3. 使用方式
先来说说 Flux Kontext 的发布的 3 个模型版本。
Kontext [dev]:轻量级的开源版本,目前尚未全面开放下载Kontext [pro]:支持多轮迭代编辑,具备角色一致性保持、局部精细修改、风格迁移等功能Kontext [max]:高级模型,更高分辨率、更强的风格还原与人物一致性、更高保真度的复杂图像编辑目前,Kontext [pro] 和 [max] 版本已经上线 Krea、Freepik、Lightricks、OpenArt、LeonardoAI 等主流创作平台,生态集成速度可以说是非常快了。
同时,ComfyUI 也在模型发布当天就实现了兼容支持,所以我们现在有两种主要的使用方式:在线使用 和 本地部署使用。
① 在线使用
Flux 官方提供了一个专属生成平台,名叫:Flux Playground。注册登录后即送 200 积分,可直接体验模型的图像编辑能力。
地址在这: https://playground.bfl.ai/image/edit
目前 Flux Kontext 模型的付费策略如下:
[pro] 版本:生成一张图消耗 4 积分(按 1 积分 = $0.01 计算,每张图约 $0.04)[max] 版本:生成一张图消耗 8 积分,也就是每张图约 $0.08所以,建议大家在生成图像时,把数量设为 1 张就好——否则 200 积分分分钟就用光了(像我自己一开始就瞎点,一顿乱试,最后不得不为 Flux 献出“一血”,直接花了 $10……)
目前 Flux Playground 仅支持上传单张图像,如果你有多图编辑需求,可以尝试使用另一个平台:Fal(非免费)。
这个平台支持多图上传,并且调用的是 [max] 模型。
地址在这: https://fal.ai/models/fal-ai/flux-pro/kontext/max/multi
当然,海外还有其他平台也集成了这个模型,不过大多数都需要付费,这里就不一一列举了。
国内目前比较可用的是:哩布 AI,它支持通过 ComfyUI 工作流 调用 Flux Kontext,但这个生图一次多消耗的点数有点夸张(225 点数)。
工作流有现成的,推荐 @YOUS 作者发布的,地址: https://www.liblib.art/modelinfo/
② 本地使用
一句话总结:本地使用是基于 ComfyUI 的“Flux.1 Kontext Image”节点,通过 API 调用 Kontext 模型来实现的。虽然叫“本地部署”,但实际上 [pro] / [max] 模型仍然是通过在线 API 请求实现的,使用前需要单独充值 ComfyUI API。
Kontext 模型的生图过程不受系统和设备配置影响,Mac 用户也能放心用。前提是你需要先安装 ComfyUI,下载地址: https://www.comfy.org/zh-cn/
不过友情提醒一句:如果你完全没接触过 Stable Diffusion,那我不太建议你直接上手 ComfyUI,它需要一些系统性的学习,不然你还真玩不懂它。
工作流的操作流程也很简单,ComfyUI 官方也提供了一份教程和工作流示例,地址: https://docs.comfy.org/tutorials/api-nodes/black-forest-labs/flux-1-kontext
如果你是使用的 秋叶版启动器,可以在“版本管理”中将 ComfyUI 更新到最新版本。
启动后,直接搜索找到 Kontext [pro] / [max] 这两个节点即可(分别对应两个模型版本,一般使用 [pro] 就够了)。然后左右拖出“加载图像”和“保持图像”节点,连起来就能跑。
当然,你也可以按需添加一些扩展节点,比如文本翻译、图像尺寸设置等,本文不展开演示了。
还有一点要注意:要使用 Kontext 模型,记得先充值。ComfyUI 右上角登录账号后就可以充值,支持微信和支付宝,支付方式比较友好。
如果你想搭建多图生成的工作流,除了使用一些“图像联结”类节点,其实还有个更方便的方法:直接使用 “Fal” 节点。
操作方法也很简单:
1)在节点管理器中安装 ComfyUI-Fal-API 插件,如下图所示。
2)然后在搜索栏找到:Flux Pro Kontext Multi (fal) 节点,用于多图批量编辑。
整体来看,Kontext 在 ComfyUI 中的使用体验非常流畅。通过节点化操作,你可以轻松把它嵌入自己的复杂工作流中。
比如与其他 Stable Diffusion 模型联动、加入 ControlNet 做局部控制、结合 LoRA 微调模型进一步增强风格适配力等等
不过当前 Kontext 模型仍通过在线 API 调用,所以使用时请确保网络通畅。若出现加载慢或报错,大概率是余额不足或网络不稳,建议检查账户后重试。
随着开放版模型的推出,未来 ComfyUI 有望支持直接加载 Kontext [Dev] 本地模型节点,到时将无需联网即可使用其强大功能。
本来我还打算把官方提供的提示词写法,一条一条实操演示给大家看。但后来我发现——直接把需求丢给 ChatGPT,它会自己去“阅读”官方提示词技巧文章,然后再反过来给你写提示词,效率高得离谱……
所以,这块内容其实已经变得非常简单了。
当然,如果你是想系统地学习一下 Flux Kontext 模型的提示词写法逻辑,建议还是看看官方这篇详细的指南文章: https://docs.bfl.ai/guides/prompting_guide_kontext_i2i
一套 Flux Kontext 提示词生成模板奉上:
# Flux Kontext 提示词生成模板## 使用目的我将使用 **Flux Kontext 模型** 对上传的图像进行编辑,以生成新的图像内容。## 任务描述请根据我提供的具体图像编辑需求,**生成一段简洁明了、结构完整、符合 Flux Kontext 格式的提示词**。### ⚙️ 输出要求:- 输出应为 **一整段提示语**,具有明确的操作指令。- 请提供 **中文版本** 和 **英文版本**,两者意思应一致。- 每个版本提示词应:- **语言简洁**,不超过两句话;- **避免赘述**,不要添加风格描述分析或视觉特征解释;- **突出操作性**,例如使用“请将…转换为…”、“在保留…的基础上…”等表达。### ✅ 示例:> 中文:请将这张写实图像转换为吉卜力风格的艺术作品,保留原始场景的构图和主要元素。 > 英文:Please convert this realistic image into a Ghibli-style artwork,preserving the original composition and key elements of the scene.---## 我的输入格式(如下将是我发送的需求):现在,我会上传一张写实图像给 Flux Kontext 模型,我的需求是将这张写实图像转换为“吉卜力风格”,请给我提示词。---## 如果你理解了,请仅回复:“已确认,请发送你的需求。”将这套指令模板发送给 ChatGPT(或者 Kimi,我测试下来也都能正常使用),记得开启联网搜索功能,它会自动查阅官方文档,再结合上下文帮你生成更符合规范的提示词。
比如你有一个“图像转绘”的需求,可以这样发:
指令:现在,我会上传一张图像,我需要将这张图像转换为赛博朋克风格,请给我提示词。
接下来,我们就可以把它生成的提示词复制粘贴到 Flux Playground 中进行图像生成。
提示词:Please convert this image into a cyberpunk style, preserving the original composition and key elements of the scene.
比如你的需求是多轮的人像编辑,你可以这样提问:
指令:我需要上传一张人物图,我需要分多轮修改图中人物的局部,分别是更换头发颜色、给人物带上墨镜、给人物换一件潮流的 T 恤,请给我多轮提示词。
然后,将生成的提示词依次输入到 Flux Playground 中进行编辑,效果如下图所示:
第一轮提示词(替换发色):Please change the person's hair color to red, keeping the original hairstyle and other facial features unchanged.
第二轮提示词(戴上墨镜):Please add a pair of black sunglasses to the person, keeping the original facial expression and pose unchanged.
第三轮提示词(替换服装):Please replace the person's upper garment with a trendy-style T-shirt, keeping the original pose and other clothing unchanged.
再比如你的需求是老照片修复,你可以这样提问:
指令:我现在上传了一张破旧的黑白老照片,我需要修复这张图片,请给我提示词。
然后将它生成的提示词复制粘贴到 Flux Playground 中,执行生成,效果如下图所示:
提示词:Please restore and colorize this image, remove scratches and imperfections, and enhance its clarity.
好了,说到底,提示词撰写这件事,在大语言模型的辅助下,真的变得异常简单了。无论是本文中的案例,还是我之前文章里展示的所有示例,皆是借助大语言模型辅助帮我完成图像的产出。
所以在 AI 时代,“掌握 AI”其实不是一件很难的事。真正重要的是:你是否愿意主动去使用它,灵活地让它为你所用,记住:
当你遇到问题,请把你的问题发给 AI;当你不想动脑,也请把你的需求发给 AI。最后,我也实测了一些更贴近设计实际工作的案例,分享给大家做个参考,希望能对你的使用思路有些启发。
1. IP 设计场景应用
最近我天天在薅东哥的羊毛,不管是给用户的实惠,还是对骑手的待遇,感觉都挺有诚意的。于是我突发奇想:要不来做一个“外卖员 IP 角色”,再顺带延展出一系列 IP 应用?
于是我第一步就把之前在即梦 AI 精修过的一张形象照,转换成一个 3D 角色形象,为整个角色开发打下基础。
提示词:Please convert this portrait into a full-body chibi-style 3D cartoon character, preserving the person's facial features and clothing details, suitable for three-view design.
接下来,我给这个 3D 角色穿上了类似“东哥”外卖服的设定——提示词是我用 GPT 帮忙写的。
提示词:Update the outfit to a distinctive delivery uniform featuring: a fitted red short-sleeve T-shirt with a white crew neck collar and white stripes running vertically down the chest and along the sleeves; gray full-length pants with white side stripes; a red half-face electric scooter helmet with open front, white accent ring on the side, smooth rounded design, and the letters ‘DGNB’ printed prominently on the front; and black athletic shoes with thick soles. Keep the face, hairstyle, and expression identical to the original. Use a plain white background.
三视图生成也是角色设计绕不开的部分,因为我是在 Flux Playground 中生成的,它目前还不支持在修改图像时,设置图像生成尺寸,所以我通过手动调整尺寸来实现三视图效果:
提示词:Please generate the character's three-view images, including front, side, and back views, maintaining the character's facial features, clothing details, and overall pose consistently, suitable for three-view design.
三视图搞定后,我顺手把它转换成插画风和线稿风两套风格:
插画风-提示词示例:Please convert this set of character three-view images into an illustration style, preserving the character's facial features, clothing details, and overall pose, suitable for three-view design.
接着,我又基于白底角色图制作了三组场景渲染图(角色表情、姿势没有特别调整):
骑车送餐-提示词示例:Place the uploaded 3D cartoon delivery character riding a red scooter into a vibrant, stylized urban cityscape. The scene features modern high-rise buildings with glass facades, wide streets with marked lanes, and a clear blue sky with scattered clouds. Incorporate elements like traffic lights, street signs, and distant pedestrians to add realism. The character is carrying a large, hard rectangular red delivery backpack with black trim and thick shoulder straps, resembling a professional insulated delivery box. The lighting is bright and natural, casting soft shadows. The overall atmosphere is lively and dynamic, capturing the essence of a bustling city during daytime.
最后,为角色搞了一组周边物料设计,成品效果还不错。
只要提示词写得准确,Kontext 模型基本一次就能给出非常稳定的结果。
钥匙扣-提示词示例:Create a 3D-rendered keychain featuring the uploaded cartoon delivery character. The keychain should depict the character in a chibi style with an oversized head and simplified body, made of glossy PVC material. Include a silver metal keyring attached to the top of the character's head. Present the keychain lying on a neutral-colored surface with soft studio lighting, casting gentle shadows to emphasize its three-dimensional form.
整个流程,从构思到完成所有物料,花了大概 2~3 小时。如果你有耐心,预估用一天时间就能完成一整套成熟的 IP 设计输出,借助 Flux Kontext 模型效率非常高。
总的来说,Flux Kontext 在提示词遵循度上的表现非常稳定,适合快速、高质量地完成内容型设计任务。
当然,它在风格多样性上的表现目前还是略逊于 Midjourney、即梦 AI 和 GPT-4o 等主流模型,但作为商业设计的工具,它的效率和精度,已经非常值得肯定。
2. 电商设计场景应用
再来测试一个电商商品图的场景,结合模特+产品的实际应用流程,这次我做了一组可乐的商品图案例。
先上传一张可乐图,通过提示词生成白底+背景融合图。
沙漠场景-提示词示例:On a sunny beach with blue skies and gentle waves lapping the shore, partially bury the beverage bottle in the sand next to a sunshade and sunglasses, creating a relaxed summer vibe. Preserve the bottle's shape, label, and glossy details, ensuring harmonious lighting and shadows, creating a refreshing summer-style advertisement poster.
这一轮我只用了单图上传 + 提示词描述生成背景的方式,效果非常自然,融合程度可以说是目前图像模型中的 T0 水平。
这次我直接给定背景图,再用提示词控制合成位置。
吧台场景-提示词示例:Using the uploaded beverage can product image and the modern kitchen background image, generate a realistic product composition for e-commerce display: Naturally place the beverage can on the foreground marble countertop, positioned toward the bottom right area of the image. The can may be upright or slightly tilted, and should cast a soft shadow to suggest natural contact with the surface. Light reflections on the can should match the ambient lighting in the scene. Retain condensation droplets on the can to emphasize cold refreshment. The background remains softly blurred to highlight the can, and the overall style should feel premium, clean, and photorealistic—ideal for use in a kitchen/bar-style product presentation.
结果来看,无论是光影、构图,还是产品的细节还原都非常在线。
我还想尝试一套模特手持可乐的场景图,先处理模特图像。
使用 Flux Kontext 提取模特服装图(灵感来自 @阿真),精度非常高。
提示词:Please extract the clothing from this model image and generate a white background image, preserving the details and texture of the clothing, suitable for product display.
接着将模特与可乐图进行合成,测试了三个不同国家的模特版本,效果如图所示:
亚洲女性模特-提示词示例:Please generate a front-view image of an Asian female model wearing this outfit, preserving the clothing's details and texture, with a pure white background, suitable for product display.
最终一步是将模特图与产品图融合,并补充完整场景背景。
这轮我写了比较长的提示词,主要是详细描述了人物的姿势、背景配色、产品放置位置等要素。
通用提示词:Using the uploaded model image and white-background beverage can product image, generate a commercial-style advertising image:The model should be standing naturally, slightly leaning forward. Her right arm is raised near shoulder level, fingers softly curled to hold a very small beverage can—the can should be upright, properly scaled to fit naturally in the hand without appearing oversized or distorted. Her left arm crosses the body with the hand resting gently on the right wrist or forearm, forming a subtle, elegant crossover gesture. Legs are crossed, with the left leg in front and gently bent, creating a graceful silhouette. The model’s face and body structure remain unchanged and harmonious. The background should be a modern red studio setup featuring soft lighting gradients, subtle highlights, abstract graphic elements, or motion blur accents to create depth and a polished commercial style, ideal for a brand key visual or product endorsement image.
实际效果基本达到预期,但也遇到一个问题——可乐瓶身上的文字完全糊了。
我认为这是图像尺寸限制导致的,目前 Flux Playground 输出图像的分辨率不高,只有 1000px 左右。而在融合了模特 + 场景背景后,产品被缩放到画面中较小的位置,瓶身文字自然就模糊了。
换句话说,就算你在 PS 中用 1000px 的画布,去画一个人物手持产品的图,瓶子上的小字也会糊掉。除非 AI 模型未来能直接输出更高清图像,否则这是个物理限制问题。
以上就是本篇文章的全部内容。
Flux Kontext 这次我足足测了 30 多个小时,估计已经打破我之前所有图像模型的测评时长记录了……
测试完后的第一个感受只有一个词:变革。
别小看一个图像编辑模型,它改变的,远远不止是出图效率。它背后连着的是设计行业的工作方式,甚至是以往 AI 图像创作的工作方式,都正在被重新定义。
设计行业的影响不多说了,重点聊聊后者——AI 图像创作的变化:
在 2025 年之前,我们想让 AI 图像“听话”,除了要写一堆复杂提示词,还得靠各种插件修复问题、控图(比如 SD 那套)。
但现在,随着图像模型性能持续进化,提示词的遵循度变高了,模型也开始能理解上下文,我们只需要写一段自然语言,简单描述,就能稳定生出高质量图像。
说白了,门槛真的被打下来了。
我们正在经历一场“工具平权”的浪潮——谁都能上手,谁都能出结果。
未来可能不会再有人问“你会不会用 AI”,而是问你:“你懂不懂怎么用 AI 替你工作、帮你赚米?”
赶紧用起来吧,早一天掌握,就早一天主动。
“AI 不是未来,它是现在;不拥抱它,才是真的落后。”
来源:梦想精通设计