阿里巴巴整了个狠活，8 步生成图片

你们有没有这种感觉，现在的 AI 图像生成模型越来越卷了。

Stable Diffusion、Midjourney、DALL-E......一个比一个效果好，但它们都有一个共同的问题：太慢了。

一张图要几十秒甚至几分钟。这还是显卡管够的情况。

但是前两天，我在 Hugging Face 上刷到了一个新模型，叫 Z-Image-Turbo。看完之后我直接一个好家伙。

8 步生成一张图

8 步。

不是 80 步，不是 800 步，是 8 步。

这意味着什么？意味着在 H800 这种企业级 GPU 上，它能做到亚秒级推理——一张图不到 1 秒就出来了。

更夸张的是，它居然还能在 16G 显存的消费级显卡上跑。这意味着什么？意味着你拿一张 4090 就能本地跑，不需要什么服务器农场。

怎么做到的

看了一下论文，核心是一个叫 Decoupled-DMD 的技术。

简单来说，他们发现之前的 DMD（Distribution Matching Distillation）方法，实际上是两个独立机制在起作用：

CFG Augmentation（配置增强）：这是蒸馏的「矛」，负责提升生成质量
Distribution Matching（分布匹配）：这是蒸馏的「盾」，负责保证稳定性

之前没人把它们分开研究，都是混在一起用。阿里巴巴团队把它们拆开之后，就可以分别优化，最后搞出了这个 8 步的版本。

而且他们还把强化学习（RL）也融合进去了，进一步提升语义对齐和美学质量。

效果怎么样

根据他们自己的 Elo 评分，在阿里巴巴的 AI Arena 上，Z-Image-Turbo 的表现跟最顶级的闭源模型有得一拼，而且在开源模型里是 State of the Art。

几个亮点：

照片级真实感：这个不用说了，看 demo 图确实很顶
中英文双语渲染：这个挺稀罕的，很多模型处理中文文本一塌糊涂
提示词理解：有个 Prompt Enhancer，能把表面的描述转换成更深层的世界知识

怎么用

官方给了示例代码：

python

import torch
from diffusers import ZImagePipeline

pipe = ZImagePipeline.from_pretrained(
    "Tongyi-MAI/Z-Image-Turbo",
    torch_dtype=torch.bfloat16,
)
pipe.to("cuda")

image = pipe(
    prompt="Young Chinese woman in red Hanfu...",
    height=1024,
    width=1024,
    num_inference_steps=9,  # 实际是 8 步
    guidance_scale=0.0,    # Turbo 模型不需要 guidance
).images[0]

参数基本就是两步：

加载模型
调用

对开发者非常友好。

我的感受

坦率地讲，图像生成这个赛道现在真的非常卷。OpenAI 有 DALL-E，Google 有 Imagen，Stability AI 有 SD3。

但阿里巴巴这个 Z-Image-Turbo 确实有点东西。它不是各方面都最强，但它把「速度」这个维度做到了极致。

8 步生成意味着什么？意味着实时生成、意味着交互式创作、意味着可以在消费级硬件上跑。

而且它还是开源的。你完全可以下载下来自己部署，自己微调，自己玩。

对于我这种天天要用 AI 生图的人来说，这个进步方向比那种「效果更好但更慢」的思路更让我兴奋。

本文介绍了一个来自阿里巴巴的极速图像生成模型 Z-Image-Turbo，8 步即可生成一张图，适合消费级显卡运行。

快速开始：本地运行代码

1. 安装依赖

bash

pip install -U torch torchvision
pip install -U transformers accelerate safetensors sentencepiece pillow
pip install git+https://github.com/huggingface/diffusers

模型约 6B 参数，Turbo 版面向 8-step 快速生成，可在约 16GB VRAM 消费级显卡上运行。

2. 生成图片代码

python

import torch
from diffusers import ZImagePipeline

model_id = "Tongyi-MAI/Z-Image-Turbo"

# 加载模型
pipe = ZImagePipeline.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=False,
)
pipe.to("cuda")

prompt = """
A realistic Chinese ancient style portrait, young woman wearing red Hanfu,
delicate embroidery, soft cinematic lighting, museum-grade details,
elegant composition, high quality, 1024x1024
"""

generator = torch.Generator("cuda").manual_seed(42)

image = pipe(
    prompt=prompt,
    height=1024,
    width=1024,
    num_inference_steps=9,   # 实际 8 步
    guidance_scale=0.0,      # Turbo 必须设为 0
    generator=generator,
).images[0]

image.save("z_image_turbo_output.png")
print("图片已保存")

运行：

bash

python z_image_turbo_generate.py

3. 常见问题

显存不够：降低分辨率到 768x768，或开启 pipe.enable_model_cpu_offload()
ImportError：重新安装 pip install git+https://github.com/huggingface/diffusers
Turbo 关键参数：num_inference_steps=9，guidance_scale=0.0（不要设成 7、8）

字节笔记本

阿里巴巴整了个狠活，8 步生成图片

阿里巴巴整了个狠活，8 步生成图片

8 步生成一张图

怎么做到的

效果怎么样

怎么用

我的感受

快速开始：本地运行代码

1. 安装依赖

2. 生成图片代码

3. 常见问题