ByteNoteByteNote

字节笔记本

2026年5月6日

Gemma 4 多 Token 预测 Drafter:推测解码实现最高 3 倍推理加速

API中转
¥120

Google 发布了 Gemma 4 的多 Token 预测(Multi-Token Prediction, MTP)Drafter,通过推测解码(Speculative Decoding)架构实现最高 3 倍推理加速,且不损失任何输出质量或推理能力。

技术背景

标准 LLM 推理受限于内存带宽——处理器大部分时间在将数十亿参数从 VRAM 搬运到计算单元,仅为了生成单个 Token。这导致计算资源利用率低下、延迟居高不下,尤其是在消费级硬件上。

Gemma 4 是 Google 最新一代开源模型,发布仅数周下载量已超过 6000 万次。此次推出的 MTP Drafter 进一步将推理效率推向新高度。

MTP 工作原理

推测解码的核心思路是将 Token 生成与验证解耦:

  1. 轻量级 Drafter 预测 — 将轻量级 MTP 模型与重量级目标模型(如 Gemma 4 31B)配对,Drafter 利用空闲计算在短时间内预测多个未来 Token
  2. 目标模型并行验证 — 目标模型一次性验证所有建议的 Token,在单次前向传播中完成
  3. 接受序列 + 额外 Token — 如果目标模型同意推测结果,不仅接受整个序列,还会额外生成一个 Token

这意味着应用可以在通常生成单个 Token 的时间内,输出完整的推测序列加一个额外 Token。

性能提升

关键指标

  • 最高 3 倍加速 — 在兼容硬件上,Token 生成速度最高提升 3 倍
  • 零质量损失 — 由主模型 Gemma 4 保留最终验证权,输出质量与标准推理完全一致
  • 跨平台优化 — 支持 LiteRT-LM、MLX、Hugging Face Transformers、vLLM 等多种推理框架

架构优化

MTP Drafter 在底层引入了多项架构增强:

  • 共享 KV Cache — Drafter 直接利用目标模型的激活值和 KV Cache,无需重新计算已处理上下文
  • 高效 Embedder 聚类 — 针对 E2B/E4B 边缘模型,在嵌入层实现高效聚类以加速生成
  • 批处理优化 — 26B MoE 模型在 Apple Silicon 上,批处理大小从 1 提升到 4-8 时,本地加速可达约 2.2 倍

实际应用场景

  • 响应式聊天 — 大幅降低延迟,实现近实时对话和沉浸式语音应用
  • 本地开发加速 — 在个人电脑和消费级 GPU 上高速运行 26B MoE 和 31B Dense 模型
  • 边缘设备优化 — E2B/E4B 模型在边缘设备上更快输出,延长电池续航
  • 代理工作流 — 多步规划和自主代理的快速迭代

开始使用

MTP Drafter 以与 Gemma 4 相同的 Apache 2.0 开源协议发布。

bash
# 通过 pip 安装
pip install transformers

# 下载模型权重
# Hugging Face、Kaggle 均可下载

# 支持的推理框架
# transformers, MLX, vLLM, SGLang, Ollama

也可通过 Google AI Edge Gallery(Android/iOS)直接体验。

项目链接

分享: