ByteNoteByteNote

字节笔记本

2026年4月24日

阿里刚发布的这个图像生成模型,可能要改变游戏规则

API中转
¥120

阿里刚发布的这个图像生成模型,可能要改变游戏规则

事情是这样的。

我之前不是一直在玩各种 AI 图像生成工具吗,从 Midjourney 到 Stable Diffusion,从 DALL-E 到 Flux。能打的都试过一遍了。

但最近阿里通义万相团队发布的一个新模型,让我眼前一亮。

这是什么

简单说,就是一个叫 Z-Image-Turbo 的图像生成模型。

6B 参数,听起来不大对吧。但它的关键指标很吓人:

  • 8 步推理就能生成一张图(业内通常要 20-50 步)
  • 消费级显卡就能跑,16GB 显存那种
  • 生成速度极快,企业级 H800 GPU 上只需亚秒级延迟

这意味着什么?你不用等专业级显卡,在自己电脑上就能快速出图。

几个亮点

第一,中英文双语文字渲染。这点真的很重要。之前用很多模型生成带文字的图片,英文还能看,中文基本废柴。Z-Image-Turbo 在这方面表现不错。

第二,体积小但质量高。6B 参数,比那些几十B 的模型小好几倍,但生成的图像质量完全不虚。根据阿里 AI Arena 的 Elo 评分,它在开源模型里是头名。

第三,开源免费。Apache 2.0 协议,企业级商用无忧。

怎么用

官方推荐用 diffusers:

python
import torch
from diffusers import ZImagePipeline

pipe = ZImagePipeline.from_pretrained(
    "Tongyi-MAI/Z-Image-Turbo",
    torch_dtype=torch.bfloat16,
)
pipe.to("cuda")

image = pipe(
    prompt="Your prompt here",
    height=1024,
    width=1024,
    num_inference_steps=9,
    guidance_scale=0.0,
).images[0]

有几个小技巧:

  • 推理步数设为 9 步(实际是 8 次前向传播)
  • guidance_scale 设为 0,Turbo 模型不需要 Classifier-Free Guidance
  • 可以开启 Flash Attention 加速
  • 首次推理前可以先 compile 一下,变身更快

适合谁

如果你:

  • 需要快速生成图像,不想等半天
  • 显卡显存有限(16GB 左右)
  • 对中英文文字渲染有需求
  • 想本地部署,不用看 API 脸色

这个模型值得一试。HuggingFace 上有现成的 Space 可以直接体验,也可以下载到本地跑。

我自己准备接下来用它做一些配图生成,速度快才是硬道理。


本文介绍阿里通义万相团队开源的 Z-Image-Turbo 图像生成模型,6B 参数、8 步推理,消费级显卡即可运行。

分享: