文生图模型的终极形态?字节开源的 DreamO 上线模力方舟在线体验

B站影视 内地电影 2025-05-23 15:45 2

摘要:现在,字节跳动智能创作团队联合北京大学深圳研究生院电子与计算机工程学院发布的开源模型DreamO,正式上线模力方舟在线体验:https://ai.gitee.com/serverless-api?model=DreamO

图像生成早已进入多模态、多任务并行的新阶段,而真正能统一身份替换、风格迁移、虚拟试穿等多个复杂场景的模型却屈指可数。

现在,字节跳动智能创作团队联合北京大学深圳研究生院电子与计算机工程学院发布的开源模型DreamO,正式上线模力方舟在线体验:https://ai.gitee.com/serverless-api?model=DreamO

DreamO是一套统一的图像定制生成框架,基于Diffusion Transformer(DiT)架构,首次实现了在单一模型中高质量支持多种图像定制任务及其组合输入

相比市面上分别针对人脸、服饰、风格等的工具模型,DreamO能够将这些任务无缝集成,并通过「特征路由约束」机制保障细节一致性与区域控制力。

支持输入人物、物体、动物等广泛目标,保留身份特征,自动去除背景。

专注人脸特征的一致性,忽略服饰与背景,适用于头像或人物重定向。

提示:如 ID 模式中面部过亮或不自然,可尝试降低guidance scale;如果文字渲染效果不佳或出现四肢畸变,则可尝试提高该值。

支持上衣、裤装、眼镜、帽子等穿搭单品,生成自然贴合的人物图像。

支持输入参考图像后,以相同风格生成新对象图像。

⚠️ 注意:使用该模式时需在提示词前加上指令generate a same style image.,以启用风格迁移。

支持人脸 + 衣物 + 风格 + 场景等多元素组合输入,精确控制生成内容。

DreamO基于预训练DiT模型构建,所有图像定制任务通过统一序列输入处理,无需切换模型或加载不同 pipeline,显著简化开发与使用流程。

特征路由机制

在训练阶段引入routing constraint机制,使模型在处理多条件输入(如人脸 + 衣服 + 场景)时,能保持各个条件控制区域的独立与一致。配合占位符机制(如 [ref#1]),还可支持精细的位置控制。

DreamO采用参数量仅 707M 的LoRA模块扩展,仅对少量参数进行微调即可实现大幅增强能力,推理资源占用极低,适用于服务部署与本地调用场景。

模型训练分为预热、全量联合学习和画质对齐三阶段。最终输出既具多任务泛化能力,又保持原始Flux模型的高画质生成优势,极大减少训练噪声影响。

DreamO并不只是文生图模型的又一变种,它是目前在身份一致性、条件解耦和多任务集成方面极具工程实用价值的开源探索之一。

点击下面的链接,来模力方舟体验 DreamO 吧:https://ai.gitee.com/serverless-api?model=DreamO

模力方舟的 AI 模型广场提供了行业大模型、文本生成、视觉模型、语音多模态、图像生成与处理、3D生成、文档处理/OCR、视频生成、自动语音识别、语音合成、向量化和重排、代码生成、风控识别十三大类共 93 款各领域的顶尖开源模型的在线体验和 API 使用。通过购买模型资源包,即可通过极低的价格即可尽享众多主流模型。

来源:码云Gitee

相关推荐