字
字节笔记本
2026年6月3日
Gemma 4 12B 发布:Encoder-Free 多模态模型,16GB 笔记本可跑
API中转
¥120
Google 发布了 Gemma 4 12B,一个完全开源(Apache 2.0)的稠密模型,能在 16GB 显存的笔记本上运行,支持文字、图片、音频的多模态处理。
核心卖点:Encoder-Free
以前的多数多模态模型架构是:图片 → 视觉编码器处理 → 喂给 LLM;音频 → 音频编码器处理 → 喂给 LLM。每个模态有自己的独立编码器,体积大、显存吃紧。
Gemma 4 12B 取消了独立的视觉和音频编码器,把图片和音频直接压入大模型主干处理:
- 视觉:原来 5.5 亿参数(27 层 Transformer)的视觉编码器,变成 3500 万参数的 embedder,把图片切成 48×48 小块做一次矩阵运算直接映射
- 音频:原来 3 亿参数(12 层 Conformer)的音频编码器取消,原始 16kHz 音频切成 40ms 帧直接投影进 LLM
编码没有消失,而是坍缩到了模型主干里。
带来的好处
显存省:12B 级别就能在 16GB 笔记本上跑,对本地部署非常友好。
结构统一:文字、图片、音频都走同一个模型主干,不再是几个模块拼凑。
微调简单:做 LoRA 微调时可以在一套权重上同时调整视觉、音频和文字能力,不用分别调三个模块。
在手机上怎么用
方案一:直接体验(推荐)
装 Google AI Edge Gallery:
- Android:Google Play 搜索安装
- iOS:App Store 搜索安装
- Android 12+ / iOS 17+
- 进入应用后选择 Gemma 4 模型下载到本地
注意:手机上别直接上 12B。Google AI Edge Gallery 中面向手机的主要是 E2B 和 E4B,12B 更适合笔记本。
方案二:手机当客户端,电脑跑 12B
如果你想用 12B 的完整能力:
text
电脑(Mac / PC)跑 Gemma 4 12B
→ Ollama / LM Studio / llama.cpp
→ Open WebUI 或 API
→ 手机浏览器远程访问搭配 Tailscale 可以在外网也能访问家里的机器。
方案三:开发者集成到自己的 App
走 LiteRT-LM,Google 的跨平台本地 LLM 部署框架,支持 Android、iOS、macOS、Windows、Linux,支持 CPU/GPU/NPU。Hugging Face 上有 .litertlm 格式的 Gemma 4 模型。
一句话总结
Gemma 4 12B 的卖点不是更大,而是更小的体积里塞进了更完整的多模态能力。
使用 Ollama 本地运行
bash
# 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 拉取 Gemma 4 12B 并运行
ollama pull gemma4:12b
ollama run gemma4:12b -- "用 Python 写一个快速排序"通过 Python API 调用
python
import requests
import json
# Ollama API
response = requests.post("http://localhost:11434/api/generate", json={
"model": "gemma4:12b",
"prompt": "解释 encoder-free 架构相比传统多模态模型的优势",
"stream": False,
"options": {
"temperature": 0.7,
"top_p": 0.9
}
})
print(response.json()["response"])多模态输入示例
python
# 同时传入图片和文字
response = requests.post("http://localhost:11434/api/generate", json={
"model": "gemma4:12b",
"prompt": "这张图里有什么?",
"images": [base64_image],
"stream": False
})在手机上远程访问
bash
# 在电脑上暴露 Ollama API
ollama serve
# 手机端通过浏览器或 App 访问
# Open WebUI 或自己写一个简单前端分享: