字
字节笔记本
2026年4月24日
我用本地大模型跑 Claude Code,效果居然还行
API中转
¥120
我用本地大模型跑 Claude Code,效果居然还行
事情是这样的。
我之前不是各种折腾 Claude Code 嘛,什么 API 代理、Copilot API、在线大模型......能用的大脑我都试了个遍。
但有个问题:这些方案要么要钱,要么有限速,要么就是网络不稳定。
直到我发现了 LM Studio 这个东西。
什么是 LM Studio
简单说就是一个本地大模型运行工具。
它跟 Ollama 有点像,但界面更好看,而且有一个关键功能:从 0.4.1 版本开始,它原生支持 Anthropic 的 /v1/messages 端点。
这意味着什么?你可以直接让 Claude Code 调用本地模型,不需要任何代理。
怎么设置
第一步:下载 LM Studio(≥ 0.4.1),加载 Qwen3.6-27B(推荐 Q4_K_M 量化版本)
第二步:在 LM Studio 里切换到 Server 标签页,点 Start Server,默认端口 1234
第三步:设置环境变量
bash
export ANTHROPIC_BASE_URL=http://localhost:1234
export ANTHROPIC_AUTH_TOKEN=lmstudio第四步:启动 Claude Code
bash
claude --model qwen/qwen3.6-27b完事。
效果怎么样
我试了一下 Qwen3.6-27B Q4_K_M 量化版本,在我这张 24GB 显存的卡上,大概能跑 25-40 tokens/s。
用来写代码、调试问题、读代码库——基本够用。
当然跟在线的 Claude 4.7 没法比,但关键是:不要钱、不限速、离线也能跑。
适合谁
如果你:
- 显卡显存 ≥ 16GB
- 不想每个月花 API 费
- 需要离线工作
这个方案值得一试。Qwen3.6-27B 这个模型对中文支持很好,代码能力也不错,配上 Claude Code 日常开发完全没问题。
本文介绍如何使用 LM Studio 原生 Anthropic 端点运行本地大模型,让 Claude Code 可以在本地离线工作。
分享: