ByteNoteByteNote

字节笔记本

2026年6月9日

Gemma 4 QAT 本地运行指南:3GB 内存起步,Unsloth Studio 新 Web UI

API中转
¥120

Gemma 4 QAT(Quantization-Aware Training)是 Google DeepMind 推出的新量化感知训练变体,在大幅降低内存占用的同时保持近乎原始模型的精度。配合 Unsloth 的 Dynamic 方法,E2B 模型仅需 3GB 内存即可运行,26B-A4B 仅需 15GB。本文介绍模型规格、Unsloth 优化方法和多种本地部署方式。

什么是 Gemma 4 QAT

QAT(量化感知训练)在训练时就考虑量化,让 4-bit 格式在保持 ~72% 内存降低的同时拥有接近原始 BF16 模型的精度。

Gemma 4 QAT 包含 5 个变体,全部是多模态、混合思维模型,支持 140+ 语言和最大 256K 上下文:

模型参数量QAT GGUF 大小原始 BF16 大小内存节省推荐内存
E2B5B2.62 GB9.31 GB71.9%3 GB
E4B7B4.22 GB15.1 GB72.1%5 GB
12B12B6.72 GB23.8 GB71.8%7 GB
26B-A4B25B14.2 GB50.5 GB71.9%15 GB
31B31B17.3 GB61.4 GB71.8%18 GB

Unsloth Dynamic 量化优化

朴素地将 QAT 模型转换为 llama.cpp 的 Q4_0 格式会显著降低精度。以 26B-A4B 为例,朴素转换仅获得 70.2% Top-1 准确率。

Unsloth 应用 Dynamic 方法,通过强制 llama.cpp Q4_0 格式与 BF16 QAT Q4_0 格式之间更好地对齐,大幅提升精度:

模型Unsloth Top-1%朴素 Q4_0 Top-1%提升大小
E2B98.16%89.29%+8.87更小 22%
E4B98.54%90.94%+7.60更小 18%
12B88.76%74.08%+14.68更小 4%
26B85.63%70.20%+15.43更小 1%
31B96.67%87.91%+8.76更小 2%

GGUF 量化命名为 UD-Q4_K_XL。每个模型只有一种 GGUF 格式,因为更高精度反而会降低准确率。

Mobile Mixture QAT

Google 还发布了专为手机设计的混合宽度 QAT 版本(E2B 和 E4B),使用 2-bit(TQ2_0)和 4-bit 的混合量化:

模型大小Top-1%
E2B mobile2.19 GB97.82%
E4B mobile3.22 GB98.76%

推荐推理参数

toml
temperature = 1.0
top_p = 0.95
top_k = 64

最大上下文:E2B/E4B 为 128K,12B/26B-A4B/31B 为 256K。

部署方式

方式一:Unsloth Studio(推荐,Web UI)

Unsloth Studio 是一个新的开源 Web UI,用于本地运行和管理 AI 模型。

安装:

bash
# macOS / Linux / WSL
curl -fsSL https://unsloth.ai/install.sh | sh

# Windows PowerShell
irm https://unsloth.ai/install.ps1 | iex

启动:

bash
unsloth studio -H 0.0.0.0 -p 8888
# 浏览器打开 http://127.0.0.1:8888

功能:

  • 搜索、下载、运行 GGUF 和 safetensor 模型
  • 自修复工具调用 + 网页搜索
  • 代码执行(Python、Bash)
  • 自动推理参数调优
  • 通过 llama.cpp 的快速 CPU + GPU 推理
  • 以 2x 速度和 70% 更少 VRAM 训练 LLM

在 Studio Chat 中搜索 "Gemma 4" 即可下载并运行 QAT 模型。

方式二:llama.cpp

bash
# 编译(GPU 版本)
apt-get update && apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first \
  --target llama-cli llama-server
cp llama.cpp/build/bin/llama-* llama.cpp

运行 26B-A4B:

bash
export LLAMA_CACHE="unsloth/gemma-4-26B-A4B-it-qat-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/gemma-4-26B-A4B-it-qat-GGUF:UD-Q4_K_XL \
    --temp 1.0 --top-p 0.95 --top-k 64

带视觉模型运行(需要 mmproj):

bash
./llama.cpp/llama-cli \
    --model unsloth/gemma-4-26B-A4B-it-qat-GGUF/gemma-4-26B-A4B-it-qat-UD-Q4_K_XL.gguf \
    --mmproj unsloth/gemma-4-26B-A4B-it-qat-GGUF/mmproj-BF16.gguf \
    --temp 1.0 --top-p 0.95 --top-k 64

方式三:llama-server 部署

bash
./llama.cpp/llama-server \
    --model unsloth/gemma-4-26B-A4B-it-qat-GGUF/gemma-4-26B-A4B-it-qat-UD-Q4_K_XL.gguf \
    --mmproj unsloth/gemma-4-26B-A4B-it-qat-GGUF/mmproj-BF16.gguf \
    --temp 1.0 --top-p 0.95 --top-k 64 \
    --alias "unsloth/gemma-4-26B-A4B-it-qat-GGUF" \
    --port 8001 \
    --chat-template-kwargs '{"enable_thinking":true}'

禁用思考模式:--chat-template-kwargs '{"enable_thinking":false}'

方式四:下载模型文件

bash
pip install huggingface_hub hf_transfer
hf download unsloth/gemma-4-26B-A4B-it-qat-GGUF \
    --local-dir unsloth/gemma-4-26B-A4B-it-qat-GGUF \
    --include "*mmproj-BF16*" \
    --include "*UD-Q4_K_XL*"

硬件要求参考

模型最低内存(RAM+VRAM)适用设备
E2B3 GB手机
E4B5 GB手机/平板
12B7 GB笔记本
26B-A4B15 GB笔记本
31B18 GB笔记本

项目链接

分享: