ByteNoteByteNote

字节笔记本

2026年6月18日

Gemma 4 12B:16GB 显存就能本地看图听声音的模型

API中转
¥120

最近遇到一个烦人的事。

我想让 AI 帮我看一张截图,分析里面的问题。结果发现手头常用的几个模型,有的看不了图,有的看图要把文件上传到云端,有的显存吃不下跑不起来。

折腾了一圈,昨天 Google 发的这个模型把这几个问题一次解决了。

叫 Gemma 4 12B。

它到底做了什么

你可以把 AI 模型理解成一个人。

以前让 AI 看图,是这样的:先有一个专门负责"看"的助手,他把图片描述成一段话,再把这段话交给负责"思考"的主角。主角听的是二手描述,不是亲眼看到的。

听别人描述过的信息,总会有些东西在传递过程中丢掉。

Gemma 4 12B 的做法是把这个中间人去掉。图片和声音直接交给主角处理,不经过翻译,不经过转述。眼睛和耳朵长在了脑子上,而不是挂在外面的辅助设备。

这个改动带来了两个结果:理解更准,内存占用更小。

小到可以跑在普通电脑上

以前要在本地跑一个能看图、能听声音的 AI 模型,没有顶级显卡基本没戏。

Gemma 4 12B 只需要 16GB 显存,游戏本够用的独显就能跑。我自己的机器跑起来完全没压力,速度也快。

装好 Ollama 之后,一行命令:

bash
ollama pull gemma4:12b

然后就能直接传图片问它问题:

python
import ollama

result = ollama.chat(
    model="gemma4:12b",
    messages=[{
        "role": "user",
        "content": "这张图里的报错是什么意思,怎么解决",
        "images": ["screenshot.png"]
    }]
)
print(result['message']['content'])

音频一样,录音文件直接扔给它,让它转成文字或者翻译:

python
result = ollama.chat(
    model="gemma4:12b",
    messages=[{
        "role": "user",
        "content": "把这段录音转成中文文字",
        "audio": "meeting.wav"
    }]
)

全程在本地跑,图片和录音文件不会上传到任何地方。

能力上不缩水

小不代表弱。

Gemma 4 系列出了一个更大的版本,参数量是这个的两倍多。Gemma 4 12B 在测试里的表现跟那个大版本基本持平,但运行要求低了一半还多。

Google 这个系列的下载量已经超过 1.5 亿次,说明社区已经有很多人在用了,常见问题基本都有人踩过坑、写过解决方案,不用自己从零摸索。

LM Studio、Ollama 这些常用工具都已经支持,不需要折腾环境。权重在 Hugging Face 可以直接下,国内网络也能访问 Kaggle 上的镜像。许可协议是 Apache 2.0,免费商用,不需要申请授权。

一个实际的用法

我现在用它做的最多的事:开会录音转纪要。

录音文件在本地,Gemma 4 12B 在本地跑转录,输出文字之后再交给 DeepSeek V4 的 API 整理成结构化的纪要和待办事项。整个流程,录音文件没有离开过我的电脑。

以前要做这件事,要么接受数据上云,要么就得买专门的转录服务。现在本地跑一个模型就能解决前半段,后半段的文字推理才需要用到云端 API,而文字是可以接受上传的。

值得试一下

Gemma 4 12B 不是参数最多的,也不是跑分第一的。但它是目前这个价位、这个显存要求里,能同时看图、听声音、做推理的本地模型中,最好用的一个。

门槛低,生态成熟,今天下午就能跑起来。如果你也在找一款能本地跑的多模态模型,可以试试它。

分享: