LM Studio 0.4.16 完整使用指南：从下模型到接入开发工具

用过 Ollama 的人切换到 LM Studio 通常有个直觉：这不就是加了个 GUI 的同类工具吗？

不完全是。0.4.16 版本有两个变化值得单独说，一个是新用户必踩的坑，一个是让手机变成 AI 终端的新功能。加上选模型的逻辑和 CLI 的使用，这篇把完整链路走一遍。

先说安装之后最容易遇到的问题

下好模型，点 Load，报错：

No LM Runtime found for model format 'gguf'

这是 0.4.16 的一个架构变化：推理运行时（Runtime）被从主程序里拆出来，变成可选安装的独立组件。新装的用户默认没有 Runtime，加载 GGUF 模型就会遇到这个错误。

解决方法是通过 lms CLI 安装。先确认 CLI 已经可用：

bash

lms --help

如果提示 command not found，去 LM Studio 顶部菜单找"Install CLI Tools"先装上，之后在终端执行：

bash

# Apple Silicon Mac
lms runtime install llama-cpp-mac-arm64-apple-metal-advsimd

# 确认安装结果
lms runtime list

装完之后回到界面重新点 Load，模型就能正常加载了。

这个坑很多教程没提，因为老版本内置了 Runtime，新版本解耦之后行为变了。遇到这个报错不要去改模型配置，Runtime 缺失是唯一原因。

选模型：QAT 和量化等级怎么看

LM Studio 的模型搜索界面有一个"最佳匹配"排序，会根据你的硬件配置自动过滤，这是最省心的起点。

但有几个参数值得自己判断一下。

量化等级方面，基本原则是 Q4 以下不选。Q3、Q2 的模型能力压缩太严重，跑出来效果很差。从 Q4 起步，显存充裕的话选 Q5 或 Q6，效果和体积的平衡更好。

QAT 是另一个值得关注的词。普通量化是训练完之后压缩，会有精度损失。QAT（Quantization-Aware Training）是训练阶段就把量化误差算进去，所以同样是 Q4 级别的体积，QAT 版本的效果明显好于普通 Q4，接近原始精度。看到 QAT 后缀的模型，同等体积下优先选。

不同硬件的参考范围：

M1/M2 16GB：Gemma 4 12B QAT（Q4，7.15 GB）是甜点位，舒服跑。

M1/M2 32GB：12B QAT 很轻松，可以考虑 Qwen3.6 27B（Q4，约 16 GB），还有余量。

RTX 4090 24GB：27B Q4 没问题，31B QAT 可以试试，注意系统显存占用。

模型详情页还会显示 Capabilities 标签：Vision（图像输入）、Tool Use（工具调用）、Reasoning（深度推理）。如果要接 Agent 框架，Tool Use 是硬需求，下之前先确认。

开本地服务：一次启动，多端接入

左侧切到 Developer 页面，把 Local Server 的状态开关打开，服务就起来了，默认端口 1234。

它同时支持三种 API 格式：LM Studio 自有格式、OpenAI 兼容格式、Anthropic 兼容格式。市面上几乎所有 AI 客户端都能接进来。

接入 Cherry Studio

Cherry Studio 是目前用得比较多的 API 聚合客户端，配置步骤：

设置 → 添加供应商 → 找到 LM Studio → 填入以下信息：

text

API Base URL: http://localhost:1234
API Key: （留空）

点"检测"，会自动拉取当前 LM Studio 里加载的模型列表。确认后开启供应商，配置完成。新建对话切换到这个模型，LM Studio 的 Developer Logs 面板里能看到请求进来，调用成功。

接入 Claude Code

LM Studio 支持 Anthropic 兼容格式，可以直接替换 Claude Code 的 API 端点：

bash

# 先启动本地服务
lms server start

# 用本地模型运行 Claude Code
ANTHROPIC_BASE_URL=http://localhost:1234 \
ANTHROPIC_API_KEY=lm-studio \
claude

API_KEY 随便填一个字符串占位，本地服务不校验。写进 shell 配置文件就不用每次手动设置：

bash

# ~/.zshrc
export ANTHROPIC_BASE_URL=http://localhost:1234
export ANTHROPIC_API_KEY=lm-studio

接入 Codex

Codex CLI 走 OpenAI 兼容格式：

bash

OPENAI_BASE_URL=http://localhost:1234/v1 \
OPENAI_API_KEY=lm-studio \
codex --model google/gemma-4-12b-qat "重构这个函数"

model 参数填的是 LM Studio 里实际加载的模型名，可以先用这个命令确认：

bash

curl http://localhost:1234/api/v1/models

lms CLI：用命令行管理整个工作流

前面用到了 lms server start，其实 lms 的完整命令体系可以覆盖从下模型到管理服务的全链路，不用每次打开 GUI。

常用命令速查：

bash

# 查看本地已下载的模型
lms ls

# 查看当前加载到内存的模型
lms ps

# 搜索并下载模型
lms get "gemma 4"

# 加载模型，指定 GPU 全量卸载和上下文长度
lms load google/gemma-4-12b-qat --gpu=max --context-length=8192

# 给模型起固定别名（接 API 时 model 字段用这个）
lms load google/gemma-4-12b-qat --identifier="gemma-local"

# 卸载所有模型（释放显存）
lms unload --all

# 服务管理
lms server start
lms server stop
lms server status

# 实时查看 API 请求日志
lms log stream

--identifier 这个参数特别有用。Codex 和 Claude Code 的 model 参数需要填模型名，如果模型路径太长，给它起个短别名，配置文件里就不用改来改去。

0.4.16 新功能：LM Link

最后说这个版本的另一个新东西：LM Link。

逻辑是这样的：主机跑 LM Studio 开着服务，iPhone/iPad 装一个叫 Locally 的配套 App，两端登录同一个 LM Studio 账号，把 LM Link 开关打开，自动配对。之后在手机上发出的推理请求，实际上跑在主机的 GPU 上，手机本身不承担任何计算。

连接走端对端加密，不需要手动配置 IP 或端口。Locally 的界面里能看到所有在线设备，可以按需选择用哪台主机的算力。

CLI 也支持管理 LM Link：

bash

# 开启
lms link enable

# 查看状态
lms link status

# 给设备起个好记的名字
lms link set-device-name "主力 Mac"

这个功能的适用场景很直接：主机开着，手机随时接进来用，不需要额外的服务端部署或内网穿透。

字节笔记本

LM Studio 0.4.16 完整使用指南：从下模型到接入开发工具

先说安装之后最容易遇到的问题

选模型：QAT 和量化等级怎么看

开本地服务：一次启动，多端接入

接入 Cherry Studio

接入 Claude Code

接入 Codex

lms CLI：用命令行管理整个工作流

0.4.16 新功能：LM Link