字节笔记本
2026年6月9日
Gemma 4 QAT 本地运行指南:3GB 内存起步,Unsloth Studio 新 Web UI
Gemma 4 QAT(Quantization-Aware Training)是 Google DeepMind 推出的新量化感知训练变体,在大幅降低内存占用的同时保持近乎原始模型的精度。配合 Unsloth 的 Dynamic 方法,E2B 模型仅需 3GB 内存即可运行,26B-A4B 仅需 15GB。本文介绍模型规格、Unsloth 优化方法和多种本地部署方式。
什么是 Gemma 4 QAT
QAT(量化感知训练)在训练时就考虑量化,让 4-bit 格式在保持 ~72% 内存降低的同时拥有接近原始 BF16 模型的精度。
Gemma 4 QAT 包含 5 个变体,全部是多模态、混合思维模型,支持 140+ 语言和最大 256K 上下文:
| 模型 | 参数量 | QAT GGUF 大小 | 原始 BF16 大小 | 内存节省 | 推荐内存 |
|---|---|---|---|---|---|
| E2B | 5B | 2.62 GB | 9.31 GB | 71.9% | 3 GB |
| E4B | 7B | 4.22 GB | 15.1 GB | 72.1% | 5 GB |
| 12B | 12B | 6.72 GB | 23.8 GB | 71.8% | 7 GB |
| 26B-A4B | 25B | 14.2 GB | 50.5 GB | 71.9% | 15 GB |
| 31B | 31B | 17.3 GB | 61.4 GB | 71.8% | 18 GB |
Unsloth Dynamic 量化优化
朴素地将 QAT 模型转换为 llama.cpp 的 Q4_0 格式会显著降低精度。以 26B-A4B 为例,朴素转换仅获得 70.2% Top-1 准确率。
Unsloth 应用 Dynamic 方法,通过强制 llama.cpp Q4_0 格式与 BF16 QAT Q4_0 格式之间更好地对齐,大幅提升精度:
| 模型 | Unsloth Top-1% | 朴素 Q4_0 Top-1% | 提升 | 大小 |
|---|---|---|---|---|
| E2B | 98.16% | 89.29% | +8.87 | 更小 22% |
| E4B | 98.54% | 90.94% | +7.60 | 更小 18% |
| 12B | 88.76% | 74.08% | +14.68 | 更小 4% |
| 26B | 85.63% | 70.20% | +15.43 | 更小 1% |
| 31B | 96.67% | 87.91% | +8.76 | 更小 2% |
GGUF 量化命名为 UD-Q4_K_XL。每个模型只有一种 GGUF 格式,因为更高精度反而会降低准确率。
Mobile Mixture QAT
Google 还发布了专为手机设计的混合宽度 QAT 版本(E2B 和 E4B),使用 2-bit(TQ2_0)和 4-bit 的混合量化:
| 模型 | 大小 | Top-1% |
|---|---|---|
| E2B mobile | 2.19 GB | 97.82% |
| E4B mobile | 3.22 GB | 98.76% |
推荐推理参数
temperature = 1.0
top_p = 0.95
top_k = 64最大上下文:E2B/E4B 为 128K,12B/26B-A4B/31B 为 256K。
部署方式
方式一:Unsloth Studio(推荐,Web UI)
Unsloth Studio 是一个新的开源 Web UI,用于本地运行和管理 AI 模型。
安装:
# macOS / Linux / WSL
curl -fsSL https://unsloth.ai/install.sh | sh
# Windows PowerShell
irm https://unsloth.ai/install.ps1 | iex启动:
unsloth studio -H 0.0.0.0 -p 8888
# 浏览器打开 http://127.0.0.1:8888功能:
- 搜索、下载、运行 GGUF 和 safetensor 模型
- 自修复工具调用 + 网页搜索
- 代码执行(Python、Bash)
- 自动推理参数调优
- 通过 llama.cpp 的快速 CPU + GPU 推理
- 以 2x 速度和 70% 更少 VRAM 训练 LLM
在 Studio Chat 中搜索 "Gemma 4" 即可下载并运行 QAT 模型。
方式二:llama.cpp
# 编译(GPU 版本)
apt-get update && apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first \
--target llama-cli llama-server
cp llama.cpp/build/bin/llama-* llama.cpp运行 26B-A4B:
export LLAMA_CACHE="unsloth/gemma-4-26B-A4B-it-qat-GGUF"
./llama.cpp/llama-cli \
-hf unsloth/gemma-4-26B-A4B-it-qat-GGUF:UD-Q4_K_XL \
--temp 1.0 --top-p 0.95 --top-k 64带视觉模型运行(需要 mmproj):
./llama.cpp/llama-cli \
--model unsloth/gemma-4-26B-A4B-it-qat-GGUF/gemma-4-26B-A4B-it-qat-UD-Q4_K_XL.gguf \
--mmproj unsloth/gemma-4-26B-A4B-it-qat-GGUF/mmproj-BF16.gguf \
--temp 1.0 --top-p 0.95 --top-k 64方式三:llama-server 部署
./llama.cpp/llama-server \
--model unsloth/gemma-4-26B-A4B-it-qat-GGUF/gemma-4-26B-A4B-it-qat-UD-Q4_K_XL.gguf \
--mmproj unsloth/gemma-4-26B-A4B-it-qat-GGUF/mmproj-BF16.gguf \
--temp 1.0 --top-p 0.95 --top-k 64 \
--alias "unsloth/gemma-4-26B-A4B-it-qat-GGUF" \
--port 8001 \
--chat-template-kwargs '{"enable_thinking":true}'禁用思考模式:--chat-template-kwargs '{"enable_thinking":false}'
方式四:下载模型文件
pip install huggingface_hub hf_transfer
hf download unsloth/gemma-4-26B-A4B-it-qat-GGUF \
--local-dir unsloth/gemma-4-26B-A4B-it-qat-GGUF \
--include "*mmproj-BF16*" \
--include "*UD-Q4_K_XL*"硬件要求参考
| 模型 | 最低内存(RAM+VRAM) | 适用设备 |
|---|---|---|
| E2B | 3 GB | 手机 |
| E4B | 5 GB | 手机/平板 |
| 12B | 7 GB | 笔记本 |
| 26B-A4B | 15 GB | 笔记本 |
| 31B | 18 GB | 笔记本 |
项目链接
- Unsloth Studio 文档:unsloth.ai
- HuggingFace 模型集:unsloth/gemma-4-QAT-GGUF
- GitHub 仓库:unsloth