字节笔记本
2026年6月18日
Gemma 4 12B:16GB 显存就能本地看图听声音的模型
最近遇到一个烦人的事。
我想让 AI 帮我看一张截图,分析里面的问题。结果发现手头常用的几个模型,有的看不了图,有的看图要把文件上传到云端,有的显存吃不下跑不起来。
折腾了一圈,昨天 Google 发的这个模型把这几个问题一次解决了。
叫 Gemma 4 12B。
它到底做了什么
你可以把 AI 模型理解成一个人。
以前让 AI 看图,是这样的:先有一个专门负责"看"的助手,他把图片描述成一段话,再把这段话交给负责"思考"的主角。主角听的是二手描述,不是亲眼看到的。
听别人描述过的信息,总会有些东西在传递过程中丢掉。
Gemma 4 12B 的做法是把这个中间人去掉。图片和声音直接交给主角处理,不经过翻译,不经过转述。眼睛和耳朵长在了脑子上,而不是挂在外面的辅助设备。
这个改动带来了两个结果:理解更准,内存占用更小。
小到可以跑在普通电脑上
以前要在本地跑一个能看图、能听声音的 AI 模型,没有顶级显卡基本没戏。
Gemma 4 12B 只需要 16GB 显存,游戏本够用的独显就能跑。我自己的机器跑起来完全没压力,速度也快。
装好 Ollama 之后,一行命令:
ollama pull gemma4:12b然后就能直接传图片问它问题:
import ollama
result = ollama.chat(
model="gemma4:12b",
messages=[{
"role": "user",
"content": "这张图里的报错是什么意思,怎么解决",
"images": ["screenshot.png"]
}]
)
print(result['message']['content'])音频一样,录音文件直接扔给它,让它转成文字或者翻译:
result = ollama.chat(
model="gemma4:12b",
messages=[{
"role": "user",
"content": "把这段录音转成中文文字",
"audio": "meeting.wav"
}]
)全程在本地跑,图片和录音文件不会上传到任何地方。
能力上不缩水
小不代表弱。
Gemma 4 系列出了一个更大的版本,参数量是这个的两倍多。Gemma 4 12B 在测试里的表现跟那个大版本基本持平,但运行要求低了一半还多。
Google 这个系列的下载量已经超过 1.5 亿次,说明社区已经有很多人在用了,常见问题基本都有人踩过坑、写过解决方案,不用自己从零摸索。
LM Studio、Ollama 这些常用工具都已经支持,不需要折腾环境。权重在 Hugging Face 可以直接下,国内网络也能访问 Kaggle 上的镜像。许可协议是 Apache 2.0,免费商用,不需要申请授权。
一个实际的用法
我现在用它做的最多的事:开会录音转纪要。
录音文件在本地,Gemma 4 12B 在本地跑转录,输出文字之后再交给 DeepSeek V4 的 API 整理成结构化的纪要和待办事项。整个流程,录音文件没有离开过我的电脑。
以前要做这件事,要么接受数据上云,要么就得买专门的转录服务。现在本地跑一个模型就能解决前半段,后半段的文字推理才需要用到云端 API,而文字是可以接受上传的。
值得试一下
Gemma 4 12B 不是参数最多的,也不是跑分第一的。但它是目前这个价位、这个显存要求里,能同时看图、听声音、做推理的本地模型中,最好用的一个。
门槛低,生态成熟,今天下午就能跑起来。如果你也在找一款能本地跑的多模态模型,可以试试它。