摘要:多数模型在面对「写几个字」的简单提示时就频频出错:笔画混乱、字体畸变、内容错漏。特别是中文,多行排版、字体控制、文字与图像的融合渲染,一直是文生图模型的能力盲区。
在 AI 生成图片这件事上,有一个老大难问题一直没人真正解决:让模型把中文字写对、写清楚、写漂亮。
多数模型在面对「写几个字」的简单提示时就频频出错:笔画混乱、字体畸变、内容错漏。特别是中文,多行排版、字体控制、文字与图像的融合渲染,一直是文生图模型的能力盲区。
刚刚上线模力方舟的Qwen-Image模型,正是在这个问题上实现了突破,访问以下链接即可在线体验:https://ai.gitee.com/serverless-api?model=Qwen-Image
Prompt:一张写有「山高水长,风清月明」的水墨画,搭配山川、竹林和飞鸟,文字清晰自然,风格一致
Prompt:一位身着淡雅水粉色交领襦裙的年轻女子背对镜头而坐,俯身专注地手持毛笔在素白宣纸上书写“通義千問”四个遒劲汉字。古色古香的室内陈设典雅考究,案头错落摆放着青瓷茶盏与鎏金香炉,一缕熏香轻盈升腾;柔和光线洒落肩头,勾勒出她衣裙的柔美质感与专注神情,仿佛凝固了一段宁静温润的旧时光。
Prompt:一个咖啡店门口有一个黑板,上面写着 AI 咖啡,2元一杯,旁边有个霓虹灯,写着开源中国,旁边有个海报,海报上面是一个中国美女,海报下方写着 Gitee AI。
Qwen-Image是通义千问系列首个图像生成基础模型,参数规模 20B,采用 MMDiT 架构并以多模态输入训练优化文字渲染、图像生成和图像编辑任务。
模型训练采用逐级提升策略:从非文字图片、到短句、再到段落排版(curriculum learning),配合复杂字体合成、仿文档结构布局的训练样本,使模型具备段落级别文字理解与生成能力。特别设计三类文字合成策略:包括纯净背景渲染、上下文场景合成、结构化模板生成(如仿 PPT 和 UI),有效覆盖中文字符长尾、混合语言、字体多样等挑战。Qwen-Image不只是「能生图」,而是目前在中文文字渲染任务上最强的开源模型之一,能听懂复杂指令、写出真实排版、还原语义和风格,适合用于 AI 海报生成、图文混排内容创作、图像自动美术设计等多个高质量生成场景。
现在,它已经上线模力方舟,点击即可在线体验:https://ai.gitee.com/serverless-api?model=Qwen-Image
来源:码云Gitee