实现GPT4o图像生成编辑能力BFL推出新一代多模态图像生成与编辑

B站影视 韩国电影 2025-05-30 17:41 2

摘要:只能通过文字控制,无法灵活结合图片作为上下文;无法连续编辑或保留角色特征,缺乏“认知连续性”;局部编辑需要复杂遮罩或 finetuning;多轮操作后常常图像退化(失真、风格丢失);编辑速度慢,无法满足实时交互需求。

传统的 text-to-image(文本生成图像)模型 如 DALL·E、Stable Diffusion 等虽然强大,但也存在很多局限:

只能通过文字控制,无法灵活结合图片作为上下文;

无法连续编辑或保留角色特征,缺乏“认知连续性”;

局部编辑需要复杂遮罩或 finetuning;

多轮操作后常常图像退化(失真、风格丢失);

编辑速度慢,无法满足实时交互需求。

FLUX.1 Kontext 的目标:

构建一个真正 “上下文感知”(context-aware) 的图像生成与编辑引擎。

也就是说:

你可以像 Photoshop + GPT 一样自然地用“图+文”控制图像生成与修改,灵活、高效,并保持人物、风格一致性。

Kontext 有哪些亮点?

角色一致性 :可在多个场景中保持人物或元素的一致性

局部编辑 :只编辑图像的特定部分,不影响其他区域

风格参考 :可在指定风格下生成新场景

交互速度快 :快速迭代、延迟极低

模型版本:

FLUX.1 Kontext [pro]
适合快速迭代编辑
支持连续编辑,保持角色、身份、风格和特征在多个场景中的一致性

FLUX.1 Kontext [max]
高性能版本,具备更强的提示词遵循能力、更出色的排版表现与一致性

FLUX.1 Kontext [dev]
我们最先进的图像编辑模型的开源权重版本
目前处于 私测阶段(private beta)

主要功能

1. 图文混合控制(Text + Image Prompt)

不仅可以用文字生成图像,也可以上传图像、再用文字修改它。

2. 局部编辑(Local Editing)

可以 精确修改图像中的某个部分 ,而不影响整体风格或其它区域。

不需要做遮罩、分层或图像标注。

这意味着: 你可以像修图师一样,只“动你想动的地方”。

3. 人物与风格一致性(Character Style Consistency)

无论你生成几个不同场景的图像,只要提供相同的参考图或描述,模型能自动保持人物的面孔、表情、姿态一致。

对风格(如动漫、写实、水彩)也能保持统一表达。

用于构建连续的视觉内容(如漫画角色、虚拟代言人)非常有价值。

(a) 输入图像(b)“仅提取白色背景上的裙子,产(c)“给我展示织物的一个极端特写”

4. 多轮连续编辑(Iterative Editing)

可以对同一张图反复添加修改:“先让她笑 → 再加墨镜 → 再换背景 → 再改衣服文字”

每一步的变化都在保留前一轮基础上进行。

这是首次允许多轮自然语言驱动视觉修改的模型体系。

左图: 输入图像; 中图 :根据输入编辑:“将她的头朝向镜头倾斜”, 右图: “让她笑”

⚡ 5. 速度快、交互性强(Low Latency Inference)

推理速度高达当前主流模型的 8 倍;

在编辑、生成过程中可实现近乎“实时反馈”,适合用户快速试错与调整。

评估效果如何?表现是否领先?

Black Forest Labs 提出了一个新的测试集: KontextBench ,用于衡量上下文驱动图像任务的模型能力。
FLUX.1 模型在以下六个维度均有 领先表现 :

文本引导编辑的准确性

图像保真度与风格一致性

角色形象在多个画面中保持不变

图文排版与内容适配

多轮编辑中的稳定性

响应速度与推理效率


结果显示:


FLUX.1 Kontext [pro] 在“角色一致性”和“文本编辑精度”两个核心任务上是当前表现最好的模型之一。

他们还推出了一个交互界面

FLUX Playground 简介:

一个为开发者、创意者准备的 图形化界面平台 ,无需任何代码或集成,即可快速使用 FLUX 模型。

✅ 特点:

输入文本或上传图像,实时体验生成与修改效果;

可进行多轮编辑,查看每一步的对比;

用于向客户或决策方展示原型与能力演示;

地址: playground.bfl.ai

当前的限制与注意事项

BFL 也诚实地列出了当前的模型限制:

多次连续修改后,图像可能出现质量下降(如颜色伪影、细节模糊);

个别情况下,模型对文本理解会偏离或忽略某些要求;

对“世界知识”的理解较弱(例如可能画出结构不合理的场景);

模型压缩蒸馏过程中可能会损失部分细节(影响高保真度应用)。

失败案例: 经过六次迭代编辑后,生成内容在视觉上有所退化,并包含可见的伪影。

这说明它 更适合图像创意、概念图、产品原型、场景图等需求,而非最终成图精修阶段。

FLUX.1 Kontext [pro] 与 [max] 现已通过以下平台上线:

创作平台合作方:

@krea_ai , @freepik , @Lightricks , @openart_ai , @LeonardoAi_

基础设施合作方:

@FAL , @replicate , @RunwareAI , @DataCrunch_io , @togethercompute

来源:晚晚的星河日记一点号

相关推荐