ByteNoteByteNote

字节笔记本

2026年4月24日

我用本地大模型跑 Claude Code,效果居然还行

API中转
¥120

我用本地大模型跑 Claude Code,效果居然还行

事情是这样的。

我之前不是各种折腾 Claude Code 嘛,什么 API 代理、Copilot API、在线大模型......能用的大脑我都试了个遍。

但有个问题:这些方案要么要钱,要么有限速,要么就是网络不稳定。

直到我发现了 LM Studio 这个东西。

什么是 LM Studio

简单说就是一个本地大模型运行工具。

它跟 Ollama 有点像,但界面更好看,而且有一个关键功能:从 0.4.1 版本开始,它原生支持 Anthropic 的 /v1/messages 端点。

这意味着什么?你可以直接让 Claude Code 调用本地模型,不需要任何代理。

怎么设置

第一步:下载 LM Studio(≥ 0.4.1),加载 Qwen3.6-27B(推荐 Q4_K_M 量化版本)

第二步:在 LM Studio 里切换到 Server 标签页,点 Start Server,默认端口 1234

第三步:设置环境变量

bash
export ANTHROPIC_BASE_URL=http://localhost:1234
export ANTHROPIC_AUTH_TOKEN=lmstudio

第四步:启动 Claude Code

bash
claude --model qwen/qwen3.6-27b

完事。

效果怎么样

我试了一下 Qwen3.6-27B Q4_K_M 量化版本,在我这张 24GB 显存的卡上,大概能跑 25-40 tokens/s。

用来写代码、调试问题、读代码库,基本够用。

当然跟在线的 Claude 4.7 没法比,但关键是:不要钱、不限速、离线也能跑。

适合谁

如果你:

  • 显卡显存 ≥ 16GB
  • 不想每个月花 API 费
  • 需要离线工作

这个方案值得一试。Qwen3.6-27B 这个模型对中文支持很好,代码能力也不错,配上 Claude Code 日常开发完全没问题。


本文介绍如何使用 LM Studio 原生 Anthropic 端点运行本地大模型,让 Claude Code 可以在本地离线工作。

Claude 系列模型在长上下文和安全性方面有独特的优势。200K 的上下文窗口让 Claude 可以一次性处理整本小说或完整的代码库,大幅减少了多轮交互的需求。Claude Code 作为 CLI 编程助手,提供了和 Cursor、GitHub Copilot 不同的交互体验,更加适合熟悉终端的开发者使用。Sonnet 模型在速度和质量的平衡上表现很好,适合作为日常开发的主力模型。Opus 模型追求极致的质量,适合处理复杂推理和创意任务。Anthropic 对模型安全的重视也值得关注,通过宪法 AI 等技术手段让模型更安全、更可控。对于企业用户来说,Claude 的安全特性和可解释性是选择的重要因素。

技术的价值不在于它有多前沿,而在于它能在多大程度上解决实际问题。AI 技术的快速迭代不是用来追赶的潮流,而是用来解决业务痛点的工具箱。在实际应用中,有时候简单的方案反而最有效。一个 RAG 系统用了最复杂的检索策略但文档处理没做好,效果不如一个文档处理完善但检索策略简单的系统。一个 Agent 系统用了最贵的模型但 prompt 设计粗糙,效果不如一个精心设计 prompt 的普通模型。建议在追求技术先进性之前,先把基础工作做扎实。文档清洗、数据标注、评测体系、监控告警,这些看似基础的工作,往往是决定 AI 项目成败的关键。

分享: