
字节笔记本
2026年6月18日
LM Studio 0.4.16 完整使用指南:从下模型到接入开发工具
用过 Ollama 的人切换到 LM Studio 通常有个直觉:这不就是加了个 GUI 的同类工具吗?
不完全是。0.4.16 版本有两个变化值得单独说,一个是新用户必踩的坑,一个是让手机变成 AI 终端的新功能。加上选模型的逻辑和 CLI 的使用,这篇把完整链路走一遍。
先说安装之后最容易遇到的问题
下好模型,点 Load,报错:
No LM Runtime found for model format 'gguf'
这是 0.4.16 的一个架构变化:推理运行时(Runtime)被从主程序里拆出来,变成可选安装的独立组件。新装的用户默认没有 Runtime,加载 GGUF 模型就会遇到这个错误。
解决方法是通过 lms CLI 安装。先确认 CLI 已经可用:
lms --help如果提示 command not found,去 LM Studio 顶部菜单找"Install CLI Tools"先装上,之后在终端执行:
# Apple Silicon Mac
lms runtime install llama-cpp-mac-arm64-apple-metal-advsimd
# 确认安装结果
lms runtime list装完之后回到界面重新点 Load,模型就能正常加载了。
这个坑很多教程没提,因为老版本内置了 Runtime,新版本解耦之后行为变了。遇到这个报错不要去改模型配置,Runtime 缺失是唯一原因。
选模型:QAT 和量化等级怎么看
LM Studio 的模型搜索界面有一个"最佳匹配"排序,会根据你的硬件配置自动过滤,这是最省心的起点。
但有几个参数值得自己判断一下。
量化等级方面,基本原则是 Q4 以下不选。Q3、Q2 的模型能力压缩太严重,跑出来效果很差。从 Q4 起步,显存充裕的话选 Q5 或 Q6,效果和体积的平衡更好。
QAT 是另一个值得关注的词。普通量化是训练完之后压缩,会有精度损失。QAT(Quantization-Aware Training)是训练阶段就把量化误差算进去,所以同样是 Q4 级别的体积,QAT 版本的效果明显好于普通 Q4,接近原始精度。看到 QAT 后缀的模型,同等体积下优先选。
不同硬件的参考范围:
M1/M2 16GB:Gemma 4 12B QAT(Q4,7.15 GB)是甜点位,舒服跑。
M1/M2 32GB:12B QAT 很轻松,可以考虑 Qwen3.6 27B(Q4,约 16 GB),还有余量。
RTX 4090 24GB:27B Q4 没问题,31B QAT 可以试试,注意系统显存占用。
模型详情页还会显示 Capabilities 标签:Vision(图像输入)、Tool Use(工具调用)、Reasoning(深度推理)。如果要接 Agent 框架,Tool Use 是硬需求,下之前先确认。
开本地服务:一次启动,多端接入
左侧切到 Developer 页面,把 Local Server 的状态开关打开,服务就起来了,默认端口 1234。
它同时支持三种 API 格式:LM Studio 自有格式、OpenAI 兼容格式、Anthropic 兼容格式。市面上几乎所有 AI 客户端都能接进来。
接入 Cherry Studio
Cherry Studio 是目前用得比较多的 API 聚合客户端,配置步骤:
设置 → 添加供应商 → 找到 LM Studio → 填入以下信息:
API Base URL: http://localhost:1234
API Key: (留空)点"检测",会自动拉取当前 LM Studio 里加载的模型列表。确认后开启供应商,配置完成。新建对话切换到这个模型,LM Studio 的 Developer Logs 面板里能看到请求进来,调用成功。
接入 Claude Code
LM Studio 支持 Anthropic 兼容格式,可以直接替换 Claude Code 的 API 端点:
# 先启动本地服务
lms server start
# 用本地模型运行 Claude Code
ANTHROPIC_BASE_URL=http://localhost:1234 \
ANTHROPIC_API_KEY=lm-studio \
claudeAPI_KEY 随便填一个字符串占位,本地服务不校验。写进 shell 配置文件就不用每次手动设置:
# ~/.zshrc
export ANTHROPIC_BASE_URL=http://localhost:1234
export ANTHROPIC_API_KEY=lm-studio接入 Codex
Codex CLI 走 OpenAI 兼容格式:
OPENAI_BASE_URL=http://localhost:1234/v1 \
OPENAI_API_KEY=lm-studio \
codex --model google/gemma-4-12b-qat "重构这个函数"model 参数填的是 LM Studio 里实际加载的模型名,可以先用这个命令确认:
curl http://localhost:1234/api/v1/modelslms CLI:用命令行管理整个工作流
前面用到了 lms server start,其实 lms 的完整命令体系可以覆盖从下模型到管理服务的全链路,不用每次打开 GUI。
常用命令速查:
# 查看本地已下载的模型
lms ls
# 查看当前加载到内存的模型
lms ps
# 搜索并下载模型
lms get "gemma 4"
# 加载模型,指定 GPU 全量卸载和上下文长度
lms load google/gemma-4-12b-qat --gpu=max --context-length=8192
# 给模型起固定别名(接 API 时 model 字段用这个)
lms load google/gemma-4-12b-qat --identifier="gemma-local"
# 卸载所有模型(释放显存)
lms unload --all
# 服务管理
lms server start
lms server stop
lms server status
# 实时查看 API 请求日志
lms log stream--identifier 这个参数特别有用。Codex 和 Claude Code 的 model 参数需要填模型名,如果模型路径太长,给它起个短别名,配置文件里就不用改来改去。
0.4.16 新功能:LM Link
最后说这个版本的另一个新东西:LM Link。
逻辑是这样的:主机跑 LM Studio 开着服务,iPhone/iPad 装一个叫 Locally 的配套 App,两端登录同一个 LM Studio 账号,把 LM Link 开关打开,自动配对。之后在手机上发出的推理请求,实际上跑在主机的 GPU 上,手机本身不承担任何计算。
连接走端对端加密,不需要手动配置 IP 或端口。Locally 的界面里能看到所有在线设备,可以按需选择用哪台主机的算力。
CLI 也支持管理 LM Link:
# 开启
lms link enable
# 查看状态
lms link status
# 给设备起个好记的名字
lms link set-device-name "主力 Mac"这个功能的适用场景很直接:主机开着,手机随时接进来用,不需要额外的服务端部署或内网穿透。