Z-Image Turbo GGUF：阿里通义图像生成模型量化版

本文介绍 Z-Image Turbo GGUF，这是阿里通义团队开发的 Z-Image Turbo 图像生成模型的量化版本，由社区开发者 jayn7 转换为 GGUF 格式，支持在本地高效运行。

模型简介

Z-Image Turbo 是阿里通义实验室（Tongyi-MAI）开发的文本到图像生成模型，采用扩散变换器（DiT）架构，能够快速生成高质量图像。该 GGUF 版本通过量化技术将原始模型压缩，在保持图像质量的同时大幅降低显存占用，适合本地部署和个人开发者使用。

模型特点

高效推理：仅需 9 步采样即可生成高质量图像
量化支持：提供 Q3_K_M 到 Q8_0 多种精度选项，文件大小从 3.79GB 到 7.22GB
GGUF 格式：兼容 llama.cpp 生态，支持 ComfyUI 和 Diffusers 框架
Apache 2.0 许可证：开源可商用

可用模型版本

模型文件	大小	精度
z_image_turbo-Q3_K_S.gguf	3.79 GB	Q3_K_S
z_image_turbo-Q3_K_M.gguf	4.12 GB	Q3_K_M
z_image_turbo-Q4_K_S.gguf	4.66 GB	Q4_K_S
z_image_turbo-Q4_K_M.gguf	4.98 GB	Q4_K_M
z_image_turbo-Q5_K_S.gguf	5.19 GB	Q5_K_S
z_image_turbo-Q5_K_M.gguf	5.52 GB	Q5_K_M
z_image_turbo-Q6_K.gguf	5.91 GB	Q6_K
z_image_turbo-Q8_0.gguf	7.22 GB	Q8_0

使用方法

使用 Diffusers

bash

pip install git+https://github.com/huggingface/diffusers

python

from diffusers import ZImagePipeline, ZImageTransformer2DModel, GGUFQuantizationConfig
import torch

prompt = "Young Chinese woman in red Hanfu, intricate embroidery..."
height = 1024
width = 1024
seed = 42

local_path = "path/to/local/model/z_image_turbo-Q3_K_M.gguf"

transformer = ZImageTransformer2DModel.from_single_file(
    local_path,
    quantization_config=GGUFQuantizationConfig(compute_dtype=torch.bfloat16),
    dtype=torch.bfloat16,
)

pipeline = ZImagePipeline.from_pretrained(
    "Tongyi-MAI/Z-Image-Turbo",
    transformer=transformer,
    dtype=torch.bfloat16,
).to("cuda")

images = pipeline(
    prompt=prompt,
    num_inference_steps=9,
    guidance_scale=0.0,
    height=height,
    width=width,
    generator=torch.Generator("cuda").manual_seed(seed)
).images[0]

images.save("zimage.png")

可选优化

注意力后端优化：

python

# 启用 Sage Attention
pipeline.transformer.set_attention_backend("_sage_qk_int8_pv_fp16_triton")

# 或启用 Flash Attention 2
pipeline.transformer.set_attention_backend("flash")

# 或启用 Flash Attention 3
pipeline.transformer.set_attention_backend("_flash_3")

模型编译加速：

python

# 编译 DiT 模型加速推理（首次运行需要编译时间）
pipeline.transformer.compile()

显存不足时使用 CPU 卸载：

python

pipeline.enable_model_cpu_offload()

使用 ComfyUI

该模型也支持通过 ComfyUI-GGUF 插件在 ComfyUI 中使用，适合可视化工作流搭建。

配套模型

使用该模型需要配合文本编码器：

Qwen3-4B (Text Encoder)：unsloth/Qwen3-4B-GGUF

生成效果

模型在多种场景下表现出色，包括：

人物肖像与服饰细节
传统建筑与文化场景
创意光影效果

字节笔记本

Z-Image Turbo GGUF：阿里通义图像生成模型量化版

模型简介

模型特点

可用模型版本

使用方法

使用 Diffusers

可选优化

使用 ComfyUI

配套模型

生成效果

相关链接