Gemma 4 12B：16GB 显存就能本地看图听声音的模型

最近遇到一个烦人的事。

我想让 AI 帮我看一张截图，分析里面的问题。结果发现手头常用的几个模型，有的看不了图，有的看图要把文件上传到云端，有的显存吃不下跑不起来。

折腾了一圈，昨天 Google 发的这个模型把这几个问题一次解决了。

叫 Gemma 4 12B。

它到底做了什么

你可以把 AI 模型理解成一个人。

以前让 AI 看图，是这样的：先有一个专门负责"看"的助手，他把图片描述成一段话，再把这段话交给负责"思考"的主角。主角听的是二手描述，不是亲眼看到的。

听别人描述过的信息，总会有些东西在传递过程中丢掉。

Gemma 4 12B 的做法是把这个中间人去掉。图片和声音直接交给主角处理，不经过翻译，不经过转述。眼睛和耳朵长在了脑子上，而不是挂在外面的辅助设备。

这个改动带来了两个结果：理解更准，内存占用更小。

小到可以跑在普通电脑上

以前要在本地跑一个能看图、能听声音的 AI 模型，没有顶级显卡基本没戏。

Gemma 4 12B 只需要 16GB 显存，游戏本够用的独显就能跑。我自己的机器跑起来完全没压力，速度也快。

装好 Ollama 之后，一行命令：

bash

ollama pull gemma4:12b

然后就能直接传图片问它问题：

python

import ollama

result = ollama.chat(
    model="gemma4:12b",
    messages=[{
        "role": "user",
        "content": "这张图里的报错是什么意思，怎么解决",
        "images": ["screenshot.png"]
    }]
)
print(result['message']['content'])

音频一样，录音文件直接扔给它，让它转成文字或者翻译：

python

result = ollama.chat(
    model="gemma4:12b",
    messages=[{
        "role": "user",
        "content": "把这段录音转成中文文字",
        "audio": "meeting.wav"
    }]
)

全程在本地跑，图片和录音文件不会上传到任何地方。

能力上不缩水

小不代表弱。

Gemma 4 系列出了一个更大的版本，参数量是这个的两倍多。Gemma 4 12B 在测试里的表现跟那个大版本基本持平，但运行要求低了一半还多。

Google 这个系列的下载量已经超过 1.5 亿次，说明社区已经有很多人在用了，常见问题基本都有人踩过坑、写过解决方案，不用自己从零摸索。

LM Studio、Ollama 这些常用工具都已经支持，不需要折腾环境。权重在 Hugging Face 可以直接下，国内网络也能访问 Kaggle 上的镜像。许可协议是 Apache 2.0，免费商用，不需要申请授权。

一个实际的用法

我现在用它做的最多的事：开会录音转纪要。

录音文件在本地，Gemma 4 12B 在本地跑转录，输出文字之后再交给 DeepSeek V4 的 API 整理成结构化的纪要和待办事项。整个流程，录音文件没有离开过我的电脑。

以前要做这件事，要么接受数据上云，要么就得买专门的转录服务。现在本地跑一个模型就能解决前半段，后半段的文字推理才需要用到云端 API，而文字是可以接受上传的。

值得试一下

Gemma 4 12B 不是参数最多的，也不是跑分第一的。但它是目前这个价位、这个显存要求里，能同时看图、听声音、做推理的本地模型中，最好用的一个。

门槛低，生态成熟，今天下午就能跑起来。如果你也在找一款能本地跑的多模态模型，可以试试它。