字节笔记本

2026年2月22日

Z-Image Turbo GGUF:阿里通义图像生成模型量化版

本文介绍 Z-Image Turbo GGUF,这是阿里通义团队开发的 Z-Image Turbo 图像生成模型的量化版本,由社区开发者 jayn7 转换为 GGUF 格式,支持在本地高效运行。

模型简介

Z-Image Turbo 是阿里通义实验室(Tongyi-MAI)开发的文本到图像生成模型,采用扩散变换器(DiT)架构,能够快速生成高质量图像。该 GGUF 版本通过量化技术将原始模型压缩,在保持图像质量的同时大幅降低显存占用,适合本地部署和个人开发者使用。

模型特点

  • 高效推理:仅需 9 步采样即可生成高质量图像
  • 量化支持:提供 Q3_K_M 到 Q8_0 多种精度选项,文件大小从 3.79GB 到 7.22GB
  • GGUF 格式:兼容 llama.cpp 生态,支持 ComfyUI 和 Diffusers 框架
  • Apache 2.0 许可证:开源可商用

可用模型版本

模型文件大小精度
z_image_turbo-Q3_K_S.gguf3.79 GBQ3_K_S
z_image_turbo-Q3_K_M.gguf4.12 GBQ3_K_M
z_image_turbo-Q4_K_S.gguf4.66 GBQ4_K_S
z_image_turbo-Q4_K_M.gguf4.98 GBQ4_K_M
z_image_turbo-Q5_K_S.gguf5.19 GBQ5_K_S
z_image_turbo-Q5_K_M.gguf5.52 GBQ5_K_M
z_image_turbo-Q6_K.gguf5.91 GBQ6_K
z_image_turbo-Q8_0.gguf7.22 GBQ8_0

使用方法

使用 Diffusers

bash
pip install git+https://github.com/huggingface/diffusers
python
from diffusers import ZImagePipeline, ZImageTransformer2DModel, GGUFQuantizationConfig
import torch

prompt = "Young Chinese woman in red Hanfu, intricate embroidery..."
height = 1024
width = 1024
seed = 42

local_path = "path/to/local/model/z_image_turbo-Q3_K_M.gguf"

transformer = ZImageTransformer2DModel.from_single_file(
    local_path,
    quantization_config=GGUFQuantizationConfig(compute_dtype=torch.bfloat16),
    dtype=torch.bfloat16,
)

pipeline = ZImagePipeline.from_pretrained(
    "Tongyi-MAI/Z-Image-Turbo",
    transformer=transformer,
    dtype=torch.bfloat16,
).to("cuda")

images = pipeline(
    prompt=prompt,
    num_inference_steps=9,
    guidance_scale=0.0,
    height=height,
    width=width,
    generator=torch.Generator("cuda").manual_seed(seed)
).images[0]

images.save("zimage.png")

可选优化

注意力后端优化

python
# 启用 Sage Attention
pipeline.transformer.set_attention_backend("_sage_qk_int8_pv_fp16_triton")

# 或启用 Flash Attention 2
pipeline.transformer.set_attention_backend("flash")

# 或启用 Flash Attention 3
pipeline.transformer.set_attention_backend("_flash_3")

模型编译加速

python
# 编译 DiT 模型加速推理(首次运行需要编译时间)
pipeline.transformer.compile()

显存不足时使用 CPU 卸载

python
pipeline.enable_model_cpu_offload()

使用 ComfyUI

该模型也支持通过 ComfyUI-GGUF 插件在 ComfyUI 中使用,适合可视化工作流搭建。

配套模型

使用该模型需要配合文本编码器:

生成效果

模型在多种场景下表现出色,包括:

  • 人物肖像与服饰细节
  • 传统建筑与文化场景
  • 创意光影效果

相关链接

分享: