字
字节笔记本
2026年5月6日
Gemma 4 多 Token 预测 Drafter:推测解码实现最高 3 倍推理加速
API中转
¥120
Google 发布了 Gemma 4 的多 Token 预测(Multi-Token Prediction, MTP)Drafter,通过推测解码(Speculative Decoding)架构实现最高 3 倍推理加速,且不损失任何输出质量或推理能力。
技术背景
标准 LLM 推理受限于内存带宽——处理器大部分时间在将数十亿参数从 VRAM 搬运到计算单元,仅为了生成单个 Token。这导致计算资源利用率低下、延迟居高不下,尤其是在消费级硬件上。
Gemma 4 是 Google 最新一代开源模型,发布仅数周下载量已超过 6000 万次。此次推出的 MTP Drafter 进一步将推理效率推向新高度。
MTP 工作原理
推测解码的核心思路是将 Token 生成与验证解耦:
- 轻量级 Drafter 预测 — 将轻量级 MTP 模型与重量级目标模型(如 Gemma 4 31B)配对,Drafter 利用空闲计算在短时间内预测多个未来 Token
- 目标模型并行验证 — 目标模型一次性验证所有建议的 Token,在单次前向传播中完成
- 接受序列 + 额外 Token — 如果目标模型同意推测结果,不仅接受整个序列,还会额外生成一个 Token
这意味着应用可以在通常生成单个 Token 的时间内,输出完整的推测序列加一个额外 Token。
性能提升
关键指标
- 最高 3 倍加速 — 在兼容硬件上,Token 生成速度最高提升 3 倍
- 零质量损失 — 由主模型 Gemma 4 保留最终验证权,输出质量与标准推理完全一致
- 跨平台优化 — 支持 LiteRT-LM、MLX、Hugging Face Transformers、vLLM 等多种推理框架
架构优化
MTP Drafter 在底层引入了多项架构增强:
- 共享 KV Cache — Drafter 直接利用目标模型的激活值和 KV Cache,无需重新计算已处理上下文
- 高效 Embedder 聚类 — 针对 E2B/E4B 边缘模型,在嵌入层实现高效聚类以加速生成
- 批处理优化 — 26B MoE 模型在 Apple Silicon 上,批处理大小从 1 提升到 4-8 时,本地加速可达约 2.2 倍
实际应用场景
- 响应式聊天 — 大幅降低延迟,实现近实时对话和沉浸式语音应用
- 本地开发加速 — 在个人电脑和消费级 GPU 上高速运行 26B MoE 和 31B Dense 模型
- 边缘设备优化 — E2B/E4B 模型在边缘设备上更快输出,延长电池续航
- 代理工作流 — 多步规划和自主代理的快速迭代
开始使用
MTP Drafter 以与 Gemma 4 相同的 Apache 2.0 开源协议发布。
bash
# 通过 pip 安装
pip install transformers
# 下载模型权重
# Hugging Face、Kaggle 均可下载
# 支持的推理框架
# transformers, MLX, vLLM, SGLang, Ollama也可通过 Google AI Edge Gallery(Android/iOS)直接体验。
项目链接
- 博客原文:https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/
- 模型下载:Hugging Face、Kaggle
- 许可证:Apache 2.0
分享: