Gemma 4 QAT 本地运行指南：3GB 内存起步，Unsloth Studio 新 Web UI

Gemma 4 QAT（Quantization-Aware Training）是 Google DeepMind 推出的新量化感知训练变体，在大幅降低内存占用的同时保持近乎原始模型的精度。配合 Unsloth 的 Dynamic 方法，E2B 模型仅需 3GB 内存即可运行，26B-A4B 仅需 15GB。本文介绍模型规格、Unsloth 优化方法和多种本地部署方式。

什么是 Gemma 4 QAT

QAT（量化感知训练）在训练时就考虑量化，让 4-bit 格式在保持 ~72% 内存降低的同时拥有接近原始 BF16 模型的精度。

Gemma 4 QAT 包含 5 个变体，全部是多模态、混合思维模型，支持 140+ 语言和最大 256K 上下文：

模型	参数量	QAT GGUF 大小	原始 BF16 大小	内存节省	推荐内存
E2B	5B	2.62 GB	9.31 GB	71.9%	3 GB
E4B	7B	4.22 GB	15.1 GB	72.1%	5 GB
12B	12B	6.72 GB	23.8 GB	71.8%	7 GB
26B-A4B	25B	14.2 GB	50.5 GB	71.9%	15 GB
31B	31B	17.3 GB	61.4 GB	71.8%	18 GB

Unsloth Dynamic 量化优化

朴素地将 QAT 模型转换为 llama.cpp 的 Q4_0 格式会显著降低精度。以 26B-A4B 为例，朴素转换仅获得 70.2% Top-1 准确率。

Unsloth 应用 Dynamic 方法，通过强制 llama.cpp Q4_0 格式与 BF16 QAT Q4_0 格式之间更好地对齐，大幅提升精度：

模型	Unsloth Top-1%	朴素 Q4_0 Top-1%	提升	大小
E2B	98.16%	89.29%	+8.87	更小 22%
E4B	98.54%	90.94%	+7.60	更小 18%
12B	88.76%	74.08%	+14.68	更小 4%
26B	85.63%	70.20%	+15.43	更小 1%
31B	96.67%	87.91%	+8.76	更小 2%

GGUF 量化命名为 UD-Q4_K_XL。每个模型只有一种 GGUF 格式，因为更高精度反而会降低准确率。

Mobile Mixture QAT

Google 还发布了专为手机设计的混合宽度 QAT 版本（E2B 和 E4B），使用 2-bit（TQ2_0）和 4-bit 的混合量化：

模型	大小	Top-1%
E2B mobile	2.19 GB	97.82%
E4B mobile	3.22 GB	98.76%

部署方式

方式一：Unsloth Studio（推荐，Web UI）

Unsloth Studio 是一个新的开源 Web UI，用于本地运行和管理 AI 模型。

安装：

bash

# macOS / Linux / WSL
curl -fsSL https://unsloth.ai/install.sh | sh

# Windows PowerShell
irm https://unsloth.ai/install.ps1 | iex

启动：

bash

unsloth studio -H 0.0.0.0 -p 8888
# 浏览器打开 http://127.0.0.1:8888

功能：

搜索、下载、运行 GGUF 和 safetensor 模型
自修复工具调用 + 网页搜索
代码执行（Python、Bash）
自动推理参数调优
通过 llama.cpp 的快速 CPU + GPU 推理
以 2x 速度和 70% 更少 VRAM 训练 LLM

在 Studio Chat 中搜索 "Gemma 4" 即可下载并运行 QAT 模型。

方式二：llama.cpp

bash

# 编译（GPU 版本）
apt-get update && apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first \
  --target llama-cli llama-server
cp llama.cpp/build/bin/llama-* llama.cpp

运行 26B-A4B：

bash

export LLAMA_CACHE="unsloth/gemma-4-26B-A4B-it-qat-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/gemma-4-26B-A4B-it-qat-GGUF:UD-Q4_K_XL \
    --temp 1.0 --top-p 0.95 --top-k 64

带视觉模型运行（需要 mmproj）：

bash

./llama.cpp/llama-cli \
    --model unsloth/gemma-4-26B-A4B-it-qat-GGUF/gemma-4-26B-A4B-it-qat-UD-Q4_K_XL.gguf \
    --mmproj unsloth/gemma-4-26B-A4B-it-qat-GGUF/mmproj-BF16.gguf \
    --temp 1.0 --top-p 0.95 --top-k 64

方式三：llama-server 部署

bash

./llama.cpp/llama-server \
    --model unsloth/gemma-4-26B-A4B-it-qat-GGUF/gemma-4-26B-A4B-it-qat-UD-Q4_K_XL.gguf \
    --mmproj unsloth/gemma-4-26B-A4B-it-qat-GGUF/mmproj-BF16.gguf \
    --temp 1.0 --top-p 0.95 --top-k 64 \
    --alias "unsloth/gemma-4-26B-A4B-it-qat-GGUF" \
    --port 8001 \
    --chat-template-kwargs '{"enable_thinking":true}'

禁用思考模式：--chat-template-kwargs '{"enable_thinking":false}'

方式四：下载模型文件

bash

pip install huggingface_hub hf_transfer
hf download unsloth/gemma-4-26B-A4B-it-qat-GGUF \
    --local-dir unsloth/gemma-4-26B-A4B-it-qat-GGUF \
    --include "*mmproj-BF16*" \
    --include "*UD-Q4_K_XL*"

硬件要求参考

模型	最低内存（RAM+VRAM）	适用设备
E2B	3 GB	手机
E4B	5 GB	手机/平板
12B	7 GB	笔记本
26B-A4B	15 GB	笔记本
31B	18 GB	笔记本

项目链接

Unsloth Studio 文档：unsloth.ai
HuggingFace 模型集：unsloth/gemma-4-QAT-GGUF
GitHub 仓库：unsloth

字节笔记本

Gemma 4 QAT 本地运行指南：3GB 内存起步，Unsloth Studio 新 Web UI

什么是 Gemma 4 QAT

Unsloth Dynamic 量化优化

Mobile Mixture QAT

推荐推理参数

部署方式

方式一：Unsloth Studio（推荐，Web UI）

方式二：llama.cpp

方式三：llama-server 部署

方式四：下载模型文件

硬件要求参考

项目链接