Qwen-Image 上线模力方舟：中文文字渲染最强的开源生图模型来了！

摘要：多数模型在面对「写几个字」的简单提示时就频频出错：笔画混乱、字体畸变、内容错漏。特别是中文，多行排版、字体控制、文字与图像的融合渲染，一直是文生图模型的能力盲区。

在 AI 生成图片这件事上，有一个老大难问题一直没人真正解决：让模型把中文字写对、写清楚、写漂亮。

多数模型在面对「写几个字」的简单提示时就频频出错：笔画混乱、字体畸变、内容错漏。特别是中文，多行排版、字体控制、文字与图像的融合渲染，一直是文生图模型的能力盲区。

刚刚上线模力方舟的Qwen-Image模型，正是在这个问题上实现了突破，访问以下链接即可在线体验：https://ai.gitee.com/serverless-api?model=Qwen-Image

Prompt：一张写有「山高水长，风清月明」的水墨画，搭配山川、竹林和飞鸟，文字清晰自然，风格一致

Prompt：一位身着淡雅水粉色交领襦裙的年轻女子背对镜头而坐，俯身专注地手持毛笔在素白宣纸上书写“通義千問”四个遒劲汉字。古色古香的室内陈设典雅考究，案头错落摆放着青瓷茶盏与鎏金香炉，一缕熏香轻盈升腾；柔和光线洒落肩头，勾勒出她衣裙的柔美质感与专注神情，仿佛凝固了一段宁静温润的旧时光。

Prompt：一个咖啡店门口有一个黑板，上面写着 AI 咖啡，2元一杯，旁边有个霓虹灯，写着开源中国，旁边有个海报，海报上面是一个中国美女，海报下方写着 Gitee AI。

Qwen-Image是通义千问系列首个图像生成基础模型，参数规模 20B，采用 MMDiT 架构并以多模态输入训练优化文字渲染、图像生成和图像编辑任务。

模型训练采用逐级提升策略：从非文字图片、到短句、再到段落排版（curriculum learning），配合复杂字体合成、仿文档结构布局的训练样本，使模型具备段落级别文字理解与生成能力。特别设计三类文字合成策略：包括纯净背景渲染、上下文场景合成、结构化模板生成（如仿 PPT 和 UI），有效覆盖中文字符长尾、混合语言、字体多样等挑战。

在 LongText-Bench、ChineseWord 和 CVTG-2K 三个公开基准测试上，Qwen-Image 在中文文字清晰度、排版一致性与语义准确性上，全部超越闭源模型 Seedream 3.0 和 GPT Image 1。

采用Qwen2.5-VL（语义编码）+ VAE（视觉细节编码）双通路机制，分别提取输入图像的语义和视觉结构，训练目标为最大限度保持语义一致性 + 局部细节不失真。引入 MSRoPE 位置编码：将文字作为二维 patch 融入图像 latent token 中，实现文字与图像空间对齐，显著提升修改时的结构连贯性。