字
字节笔记本
2026年4月24日
阿里刚发布的这个图像生成模型,可能要改变游戏规则
API中转
¥120
阿里刚发布的这个图像生成模型,可能要改变游戏规则
事情是这样的。
我之前不是一直在玩各种 AI 图像生成工具吗,从 Midjourney 到 Stable Diffusion,从 DALL-E 到 Flux。能打的都试过一遍了。
但最近阿里通义万相团队发布的一个新模型,让我眼前一亮。
这是什么
简单说,就是一个叫 Z-Image-Turbo 的图像生成模型。
6B 参数,听起来不大对吧。但它的关键指标很吓人:
- 8 步推理就能生成一张图(业内通常要 20-50 步)
- 消费级显卡就能跑,16GB 显存那种
- 生成速度极快,企业级 H800 GPU 上只需亚秒级延迟
这意味着什么?你不用等专业级显卡,在自己电脑上就能快速出图。
几个亮点
第一,中英文双语文字渲染。这点真的很重要。之前用很多模型生成带文字的图片,英文还能看,中文基本废柴。Z-Image-Turbo 在这方面表现不错。
第二,体积小但质量高。6B 参数,比那些几十B 的模型小好几倍,但生成的图像质量完全不虚。根据阿里 AI Arena 的 Elo 评分,它在开源模型里是头名。
第三,开源免费。Apache 2.0 协议,企业级商用无忧。
怎么用
官方推荐用 diffusers:
python
import torch
from diffusers import ZImagePipeline
pipe = ZImagePipeline.from_pretrained(
"Tongyi-MAI/Z-Image-Turbo",
torch_dtype=torch.bfloat16,
)
pipe.to("cuda")
image = pipe(
prompt="Your prompt here",
height=1024,
width=1024,
num_inference_steps=9,
guidance_scale=0.0,
).images[0]有几个小技巧:
- 推理步数设为 9 步(实际是 8 次前向传播)
- guidance_scale 设为 0,Turbo 模型不需要 Classifier-Free Guidance
- 可以开启 Flash Attention 加速
- 首次推理前可以先 compile 一下,变身更快
适合谁
如果你:
- 需要快速生成图像,不想等半天
- 显卡显存有限(16GB 左右)
- 对中英文文字渲染有需求
- 想本地部署,不用看 API 脸色
这个模型值得一试。HuggingFace 上有现成的 Space 可以直接体验,也可以下载到本地跑。
我自己准备接下来用它做一些配图生成,速度快才是硬道理。
本文介绍阿里通义万相团队开源的 Z-Image-Turbo 图像生成模型,6B 参数、8 步推理,消费级显卡即可运行。
分享: