摘要:阿里云发布并开源了全新的Qwen3-Omni、Qwen3-TTS,以及对标谷歌Nano Banana图像编辑工具的Qwen-Image-Edit-2509。
9月23日消息,阿里云发布并开源了全新的Qwen3-Omni、Qwen3-TTS,以及对标谷歌Nano Banana图像编辑工具的Qwen-Image-Edit-2509。
Qwen3-Omni是业界首个原生端到端全模态AI模型,能够处理文本、图像、音频和视频多种类型的输入,并可通过文本与自然语音实时流式输出结果,解决了长期以来多模态模型需要在不同能力之间进行权衡取舍的难题。
Qwen3-TTS-Flash是一款重新定义语音AI的新型文本转语音模型。适用于中国、英语、意大利语、法语的SOTA多语言 WER,10 种语言× 17 种富有表现力的声音,支持 9+种中国方言:粤语、闽南语、四川话等。官方称非常适合应用程序、游戏、IVR、内容 - 任何需要自然、类人语音的地方。
Qwen-Image-Edit-2509则是一款图片处理模型,既可以处理单张图片,也可以拖入“人物+产品”或“人物+场景”,模型将如下图所示,把它们融合在一起。(转自AI普瑞斯)
来源:鞭牛士