字
字节笔记本
2026年2月22日
Z-Image Turbo GGUF:阿里通义图像生成模型量化版
本文介绍 Z-Image Turbo GGUF,这是阿里通义团队开发的 Z-Image Turbo 图像生成模型的量化版本,由社区开发者 jayn7 转换为 GGUF 格式,支持在本地高效运行。
模型简介
Z-Image Turbo 是阿里通义实验室(Tongyi-MAI)开发的文本到图像生成模型,采用扩散变换器(DiT)架构,能够快速生成高质量图像。该 GGUF 版本通过量化技术将原始模型压缩,在保持图像质量的同时大幅降低显存占用,适合本地部署和个人开发者使用。
模型特点
- 高效推理:仅需 9 步采样即可生成高质量图像
- 量化支持:提供 Q3_K_M 到 Q8_0 多种精度选项,文件大小从 3.79GB 到 7.22GB
- GGUF 格式:兼容 llama.cpp 生态,支持 ComfyUI 和 Diffusers 框架
- Apache 2.0 许可证:开源可商用
可用模型版本
| 模型文件 | 大小 | 精度 |
|---|---|---|
| z_image_turbo-Q3_K_S.gguf | 3.79 GB | Q3_K_S |
| z_image_turbo-Q3_K_M.gguf | 4.12 GB | Q3_K_M |
| z_image_turbo-Q4_K_S.gguf | 4.66 GB | Q4_K_S |
| z_image_turbo-Q4_K_M.gguf | 4.98 GB | Q4_K_M |
| z_image_turbo-Q5_K_S.gguf | 5.19 GB | Q5_K_S |
| z_image_turbo-Q5_K_M.gguf | 5.52 GB | Q5_K_M |
| z_image_turbo-Q6_K.gguf | 5.91 GB | Q6_K |
| z_image_turbo-Q8_0.gguf | 7.22 GB | Q8_0 |
使用方法
使用 Diffusers
bash
pip install git+https://github.com/huggingface/diffuserspython
from diffusers import ZImagePipeline, ZImageTransformer2DModel, GGUFQuantizationConfig
import torch
prompt = "Young Chinese woman in red Hanfu, intricate embroidery..."
height = 1024
width = 1024
seed = 42
local_path = "path/to/local/model/z_image_turbo-Q3_K_M.gguf"
transformer = ZImageTransformer2DModel.from_single_file(
local_path,
quantization_config=GGUFQuantizationConfig(compute_dtype=torch.bfloat16),
dtype=torch.bfloat16,
)
pipeline = ZImagePipeline.from_pretrained(
"Tongyi-MAI/Z-Image-Turbo",
transformer=transformer,
dtype=torch.bfloat16,
).to("cuda")
images = pipeline(
prompt=prompt,
num_inference_steps=9,
guidance_scale=0.0,
height=height,
width=width,
generator=torch.Generator("cuda").manual_seed(seed)
).images[0]
images.save("zimage.png")可选优化
注意力后端优化:
python
# 启用 Sage Attention
pipeline.transformer.set_attention_backend("_sage_qk_int8_pv_fp16_triton")
# 或启用 Flash Attention 2
pipeline.transformer.set_attention_backend("flash")
# 或启用 Flash Attention 3
pipeline.transformer.set_attention_backend("_flash_3")模型编译加速:
python
# 编译 DiT 模型加速推理(首次运行需要编译时间)
pipeline.transformer.compile()显存不足时使用 CPU 卸载:
python
pipeline.enable_model_cpu_offload()使用 ComfyUI
该模型也支持通过 ComfyUI-GGUF 插件在 ComfyUI 中使用,适合可视化工作流搭建。
配套模型
使用该模型需要配合文本编码器:
- Qwen3-4B (Text Encoder):unsloth/Qwen3-4B-GGUF
生成效果
模型在多种场景下表现出色,包括:
- 人物肖像与服饰细节
- 传统建筑与文化场景
- 创意光影效果
相关链接
分享: