Gemma 4 多 Token 预测 Drafter：推测解码实现最高 3 倍推理加速

Google 发布了 Gemma 4 的多 Token 预测（Multi-Token Prediction, MTP）Drafter，通过推测解码（Speculative Decoding）架构实现最高 3 倍推理加速，且不损失任何输出质量或推理能力。

技术背景

标准 LLM 推理受限于内存带宽——处理器大部分时间在将数十亿参数从 VRAM 搬运到计算单元，仅为了生成单个 Token。这导致计算资源利用率低下、延迟居高不下，尤其是在消费级硬件上。

Gemma 4 是 Google 最新一代开源模型，发布仅数周下载量已超过 6000 万次。此次推出的 MTP Drafter 进一步将推理效率推向新高度。

推测解码的核心思路是将 Token 生成与验证解耦：

轻量级 Drafter 预测 — 将轻量级 MTP 模型与重量级目标模型（如 Gemma 4 31B）配对，Drafter 利用空闲计算在短时间内预测多个未来 Token
目标模型并行验证 — 目标模型一次性验证所有建议的 Token，在单次前向传播中完成
接受序列 + 额外 Token — 如果目标模型同意推测结果，不仅接受整个序列，还会额外生成一个 Token

这意味着应用可以在通常生成单个 Token 的时间内，输出完整的推测序列加一个额外 Token。

MTP Drafter 在底层引入了多项架构增强：

MTP Drafter 以与 Gemma 4 相同的 Apache 2.0 开源协议发布。

bash

# 通过 pip 安装
pip install transformers

# 下载模型权重
# Hugging Face、Kaggle 均可下载

# 支持的推理框架
# transformers, MLX, vLLM, SGLang, Ollama

也可通过 Google AI Edge Gallery（Android/iOS）直接体验。