Qwen-Image 上线模力方舟:中文文字渲染最强的开源生图模型来了!

B站影视 内地电影 2025-08-05 18:49 1

摘要:多数模型在面对「写几个字」的简单提示时就频频出错:笔画混乱、字体畸变、内容错漏。特别是中文,多行排版、字体控制、文字与图像的融合渲染,一直是文生图模型的能力盲区。

在 AI 生成图片这件事上,有一个老大难问题一直没人真正解决:让模型把中文字写对、写清楚、写漂亮

多数模型在面对「写几个字」的简单提示时就频频出错:笔画混乱、字体畸变、内容错漏。特别是中文,多行排版、字体控制、文字与图像的融合渲染,一直是文生图模型的能力盲区。

刚刚上线模力方舟的Qwen-Image模型,正是在这个问题上实现了突破,访问以下链接即可在线体验:https://ai.gitee.com/serverless-api?model=Qwen-Image

Prompt:一张写有「山高水长,风清月明」的水墨画,搭配山川、竹林和飞鸟,文字清晰自然,风格一致

Prompt:一位身着淡雅水粉色交领襦裙的年轻女子背对镜头而坐,俯身专注地手持毛笔在素白宣纸上书写“通義千問”四个遒劲汉字。古色古香的室内陈设典雅考究,案头错落摆放着青瓷茶盏与鎏金香炉,一缕熏香轻盈升腾;柔和光线洒落肩头,勾勒出她衣裙的柔美质感与专注神情,仿佛凝固了一段宁静温润的旧时光。

Prompt:一个咖啡店门口有一个黑板,上面写着 AI 咖啡,2元一杯,旁边有个霓虹灯,写着开源中国,旁边有个海报,海报上面是一个中国美女,海报下方写着 Gitee AI。

Qwen-Image是通义千问系列首个图像生成基础模型,参数规模 20B,采用 MMDiT 架构并以多模态输入训练优化文字渲染、图像生成和图像编辑任务。

模型训练采用逐级提升策略:从非文字图片、到短句、再到段落排版(curriculum learning),配合复杂字体合成、仿文档结构布局的训练样本,使模型具备段落级别文字理解与生成能力。特别设计三类文字合成策略:包括纯净背景渲染、上下文场景合成、结构化模板生成(如仿 PPT 和 UI),有效覆盖中文字符长尾、混合语言、字体多样等挑战。在 LongText-Bench、ChineseWord 和 CVTG-2K 三个公开基准测试上,Qwen-Image 在中文文字清晰度、排版一致性与语义准确性上,全部超越闭源模型 Seedream 3.0 和 GPT Image 1。采用Qwen2.5-VL(语义编码)+ VAE(视觉细节编码)双通路机制,分别提取输入图像的语义和视觉结构,训练目标为最大限度保持语义一致性 + 局部细节不失真。引入 MSRoPE 位置编码:将文字作为二维 patch 融入图像 latent token 中,实现文字与图像空间对齐,显著提升修改时的结构连贯性。模型支持文字修改、风格替换、姿态调整、背景重构等多类编辑任务,编辑区域精准可控,非目标区域稳定不变。在 GenEval、DPG、OneIG-Bench、TIIF 等多个公开基准测试中,Qwen-Image 多项得分超过 Seedream 3.0 和 GPT Image 1。支持多风格生成任务,包括写实、动漫、油画、简笔等,可灵活控制图像主体、构图、色调等。

Qwen-Image不只是「能生图」,而是目前在中文文字渲染任务上最强的开源模型之一,能听懂复杂指令、写出真实排版、还原语义和风格,适合用于 AI 海报生成、图文混排内容创作、图像自动美术设计等多个高质量生成场景

现在,它已经上线模力方舟,点击即可在线体验:https://ai.gitee.com/serverless-api?model=Qwen-Image

来源:码云Gitee

相关推荐