首页 > 爱酱攻略 > 阿里通义千问首个图像生成基础模型 Qwen-Image 开源，支持中文高保真输出

阿里通义千问首个图像生成基础模型 Qwen-Image 开源，支持中文高保真输出

时间：2025-08-05来源：爱酱手游网

IT 之家 8 月 5 日消息，阿里通义千问团队今日宣布开源 Qwen-Image，这是一个 20B 的 MMDiT 模型，也是通义千问系列中首个图像生成基础模型，其在复杂文本渲染和精确图像编辑方面取得了显著进展。

Qwen-Image 的主要特性包括：

文本渲染能力：Qwen-Image 在复杂文本渲染方面表现出色，支持多行布局、段落级文本生成以及细粒度细节呈现。无论是英语还是中文，均能实现高保真输出。

一致性的图像编辑能力：通过增强的多任务训练范式，Qwen-Image 在编辑过程中能保持编辑的一致性。

跨基准性能表现：在多个公开基准测试中的评估表明，Qwen-Image 在各类生成与编辑任务中均获得 SOTA。

通义千问团队在多个公开基准上对 Qwen-Image 进行了全面评估，包括用于通用图像生成的 GenEval、DPG 和 OneIG-Bench，以及用于图像编辑的 GEdit、ImgEdit 和 GSO。

Qwen-Image 在所有基准测试中均取得了最先进的性能。此外，在用于文本渲染的 LongText-Bench、ChineseWord 和 TextCraft 上的结果表明，Qwen-Image 在文本渲染方面表现尤为出色，特别是在中文文本渲染上，大幅领先现有的最先进模型。

IT 之家附示例如下：

宫崎骏的动漫风格。平视角拍摄，阳光下的古街热闹非凡。一个穿着青衫、手里拿着写着“阿里云”卡片的逍遥派弟子站在中间。旁边两个小孩惊讶的看着他。左边有一家店铺挂着“云存储”的牌子，里面摆放着发光的服务器机箱，门口两个侍卫守护者。右边有两家店铺，其中一家挂着“云计算”的牌子，一个穿着旗袍的美丽女子正看着里面闪闪发光的电脑屏幕；另一家店铺挂着“云模型”的牌子，门口放着一个大酒缸，上面写着“千问”，一位老板娘正在往里面倒发光的代码溶液。

一副典雅庄重的对联悬挂于厅堂之中，房间是个安静古典的中式布置，桌子上放着一些青花瓷，对联上左书“义本生知人机同道善思新”，右书“通云赋智乾坤启数高志远”，横批“智启通义”，字体飘逸，中间挂在一着一副中国风的画作，内容是岳阳楼。

一个穿着“QWEN”标志的 T 恤的中国美女正拿着黑色的马克笔面相镜头微笑。她身后的玻璃板上手写体写着“Meet Qwen-Image -- a powerful image foundation model capable of complex text rendering and precise image editing. 欢迎了解 Qwen-Image, 一款强大的图像基础模型，擅长复杂文本渲染与精准图像编辑”

除了文本处理，Qwen-Image 在通用图像生成方面支持多种艺术风格。从照片级写实场景到印象派绘画，从动漫风格到极简设计，该模型能够灵活响应各种创意提示。

在图像编辑方面，Qwen-Image 支持风格迁移、增删改、细节增强、文字编辑，人物姿态调整等多种操作。这让普通用户也能实现专业级的图像编辑。

IT 之家附开源地址如下：

ModelScope：https://modelscope.cn/models/Qwen/Qwen-Image

Hugging Face：https://huggingface.co/Qwen/Qwen-Image

GitHub：https://github.com/QwenLM/Qwen-Image

Technical report：https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf

Demo：https://modelscope.cn/aigc/imageGeneration?tab=advanced

上一篇：OpenAI 将为 ChatGPT 用户增加时长提醒：别沉迷 AI 聊天，健康最重要

下一篇：苹果夯实 AI 基础：Siri 终端体验已有突破进展，正酝酿比预期更大升级

免责声明：网发此文仅为传递信息，不代表认同其观点或证实其描述。同时文中图片应用自网络，如有侵权请联系删除。

最新资讯更多