Gemma 4 12B 发布：Encoder-Free 多模态模型，16GB 笔记本可跑

Google 发布了 Gemma 4 12B，一个完全开源（Apache 2.0）的稠密模型，能在 16GB 显存的笔记本上运行，支持文字、图片、音频的多模态处理。

核心卖点：Encoder-Free

以前的多数多模态模型架构是：图片 → 视觉编码器处理 → 喂给 LLM；音频 → 音频编码器处理 → 喂给 LLM。每个模态有自己的独立编码器，体积大、显存吃紧。

Gemma 4 12B 取消了独立的视觉和音频编码器，把图片和音频直接压入大模型主干处理：

视觉：原来 5.5 亿参数（27 层 Transformer）的视觉编码器，变成 3500 万参数的 embedder，把图片切成 48×48 小块做一次矩阵运算直接映射
音频：原来 3 亿参数（12 层 Conformer）的音频编码器取消，原始 16kHz 音频切成 40ms 帧直接投影进 LLM

编码没有消失，而是坍缩到了模型主干里。

带来的好处

显存省：12B 级别就能在 16GB 笔记本上跑，对本地部署非常友好。

结构统一：文字、图片、音频都走同一个模型主干，不再是几个模块拼凑。

微调简单：做 LoRA 微调时可以在一套权重上同时调整视觉、音频和文字能力，不用分别调三个模块。

在手机上怎么用

方案一：直接体验（推荐）

装 Google AI Edge Gallery：

Android：Google Play 搜索安装
iOS：App Store 搜索安装
Android 12+ / iOS 17+
进入应用后选择 Gemma 4 模型下载到本地

注意：手机上别直接上 12B。Google AI Edge Gallery 中面向手机的主要是 E2B 和 E4B，12B 更适合笔记本。

方案二：手机当客户端，电脑跑 12B

如果你想用 12B 的完整能力：

text

电脑（Mac / PC）跑 Gemma 4 12B
  → Ollama / LM Studio / llama.cpp
    → Open WebUI 或 API
      → 手机浏览器远程访问

搭配 Tailscale 可以在外网也能访问家里的机器。

方案三：开发者集成到自己的 App

走 LiteRT-LM，Google 的跨平台本地 LLM 部署框架，支持 Android、iOS、macOS、Windows、Linux，支持 CPU/GPU/NPU。Hugging Face 上有 .litertlm 格式的 Gemma 4 模型。

一句话总结

Gemma 4 12B 的卖点不是更大，而是更小的体积里塞进了更完整的多模态能力。

使用 Ollama 本地运行

bash

# 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 拉取 Gemma 4 12B 并运行
ollama pull gemma4:12b
ollama run gemma4:12b -- "用 Python 写一个快速排序"

通过 Python API 调用

python

import requests
import json

# Ollama API
response = requests.post("http://localhost:11434/api/generate", json={
    "model": "gemma4:12b",
    "prompt": "解释 encoder-free 架构相比传统多模态模型的优势",
    "stream": False,
    "options": {
        "temperature": 0.7,
        "top_p": 0.9
    }
})
print(response.json()["response"])

多模态输入示例