ByteNoteByteNote

字节笔记本

2026年4月23日

阿里巴巴整了个狠活,8 步生成图片

API中转
¥120

阿里巴巴整了个狠活,8 步生成图片

你们有没有这种感觉,现在的 AI 图像生成模型越来越卷了。

Stable Diffusion、Midjourney、DALL-E......一个比一个效果好,但它们都有一个共同的问题:太慢了。

一张图要几十秒甚至几分钟。这还是显卡管够的情况。

但是前两天,我在 Hugging Face 上刷到了一个新模型,叫 Z-Image-Turbo。看完之后我直接一个好家伙。

8 步生成一张图

8 步。

不是 80 步,不是 800 步,是 8 步。

这意味着什么?意味着在 H800 这种企业级 GPU 上,它能做到亚秒级推理——一张图不到 1 秒就出来了。

更夸张的是,它居然还能在 16G 显存的消费级显卡上跑。这意味着什么?意味着你拿一张 4090 就能本地跑,不需要什么服务器农场。

怎么做到的

看了一下论文,核心是一个叫 Decoupled-DMD 的技术。

简单来说,他们发现之前的 DMD(Distribution Matching Distillation)方法,实际上是两个独立机制在起作用:

  1. CFG Augmentation(配置增强):这是蒸馏的「矛」,负责提升生成质量
  2. Distribution Matching(分布匹配):这是蒸馏的「盾」,负责保证稳定性

之前没人把它们分开研究,都是混在一起用。阿里巴巴团队把它们拆开之后,就可以分别优化,最后搞出了这个 8 步的版本。

而且他们还把强化学习(RL)也融合进去了,进一步提升语义对齐和美学质量。

效果怎么样

根据他们自己的 Elo 评分,在阿里巴巴的 AI Arena 上,Z-Image-Turbo 的表现跟最顶级的闭源模型有得一拼,而且在开源模型里是 State of the Art。

几个亮点:

  • 照片级真实感:这个不用说了,看 demo 图确实很顶
  • 中英文双语渲染:这个挺稀罕的,很多模型处理中文文本一塌糊涂
  • 提示词理解:有个 Prompt Enhancer,能把表面的描述转换成更深层的世界知识

怎么用

官方给了示例代码:

python
import torch
from diffusers import ZImagePipeline

pipe = ZImagePipeline.from_pretrained(
    "Tongyi-MAI/Z-Image-Turbo",
    torch_dtype=torch.bfloat16,
)
pipe.to("cuda")

image = pipe(
    prompt="Young Chinese woman in red Hanfu...",
    height=1024,
    width=1024,
    num_inference_steps=9,  # 实际是 8 步
    guidance_scale=0.0,    # Turbo 模型不需要 guidance
).images[0]

参数基本就是两步:

  1. 加载模型
  2. 调用

对开发者非常友好。

我的感受

坦率地讲,图像生成这个赛道现在真的非常卷。OpenAI 有 DALL-E,Google 有 Imagen,Stability AI 有 SD3。

但阿里巴巴这个 Z-Image-Turbo 确实有点东西。它不是各方面都最强,但它把「速度」这个维度做到了极致。

8 步生成意味着什么?意味着实时生成、意味着交互式创作、意味着可以在消费级硬件上跑。

而且它还是开源的。你完全可以下载下来自己部署,自己微调,自己玩。

对于我这种天天要用 AI 生图的人来说,这个进步方向比那种「效果更好但更慢」的思路更让我兴奋。


本文介绍了一个来自阿里巴巴的极速图像生成模型 Z-Image-Turbo,8 步即可生成一张图,适合消费级显卡运行。


快速开始:本地运行代码

1. 安装依赖

bash
pip install -U torch torchvision
pip install -U transformers accelerate safetensors sentencepiece pillow
pip install git+https://github.com/huggingface/diffusers

模型约 6B 参数,Turbo 版面向 8-step 快速生成,可在约 16GB VRAM 消费级显卡上运行。

2. 生成图片代码

python
import torch
from diffusers import ZImagePipeline

model_id = "Tongyi-MAI/Z-Image-Turbo"

# 加载模型
pipe = ZImagePipeline.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=False,
)
pipe.to("cuda")

prompt = """
A realistic Chinese ancient style portrait, young woman wearing red Hanfu,
delicate embroidery, soft cinematic lighting, museum-grade details,
elegant composition, high quality, 1024x1024
"""

generator = torch.Generator("cuda").manual_seed(42)

image = pipe(
    prompt=prompt,
    height=1024,
    width=1024,
    num_inference_steps=9,   # 实际 8 步
    guidance_scale=0.0,      # Turbo 必须设为 0
    generator=generator,
).images[0]

image.save("z_image_turbo_output.png")
print("图片已保存")

运行:

bash
python z_image_turbo_generate.py

3. 常见问题

  • 显存不够:降低分辨率到 768x768,或开启 pipe.enable_model_cpu_offload()
  • ImportError:重新安装 pip install git+https://github.com/huggingface/diffusers
  • Turbo 关键参数num_inference_steps=9guidance_scale=0.0(不要设成 7、8)
分享: