烧掉一万刀 token，换来这八条 Claude Code 实战铁律

用了两个 Max 20x 会员，加上通过 API 消耗的 8000 到 10000 刀的 token，这是我过去一个月做 Web Coding 的全部账单。

代价换来的，不是"使用技巧合集"，而是一套和模型打交道的工程认知——哪些地方踩坑会让成本翻十倍，哪些地方做对了可以让模型跑上几个小时不出岔子。

一、你以为有 200K 上下文，实际上只有 80K

200K 的 58% 被各种系统开销吃掉了，留给你真正干活的空间不到一半。

这些空间都去哪里了？

系统提示词和系统工具：约 30K，不可动。

自动压缩预留：约 33K（16%）。 Claude Code 会留出这块空间用于上下文压缩。预留了相当大的余量，结果这 33K 基本上是空着的死区。

MCP 工具：大坑。 每个 MCP 工具的定义本身就要占 token，哪怕你根本没用它，它的 schema 已经在消耗你的上下文了。最后的做法是只保留 playwright 这一个，其他全部卸载。

CLAUDE.md 文档。 每次对话开始时自动注入。写得越详细，消耗越多。现在不超过 100 行，主要写文件结构、核心规则、反复出现的失败模式、偏好的技术栈。

Skills 文件。 Skills 是动态加载的，按需调用，不会在初始化时吃掉固定的上下文空间。所以能用 skills 实现的功能，不要用 MCP 来做。

二、KV 缓存是你最不该忽视的成本开关

模型生成文本是自回归的，生成每一个新 token 都要跟前面所有 token 做注意力计算。对话历史的 KV 一旦计算出来就不会变了，缓存住之后，下次只需要计算新内容的 Q 就够了。

如果没有 KV 缓存，每生成一个 token 都要把几十万 token 的历史重新算一次。成本是灾难性的。

如果 Max 20x 会员没有 KV 缓存，别说 200 美金一个月，2000 美金都抵不住。

KV 缓存有一个绝对不能违反的使用规则：不要修改历史记录中间的内容。 如果在 system prompt 里加一行动态时间戳，会让该位置之后所有 token 的 KV 全部失效。

一个任务，从头到尾用一个模型，不要在中间切换，不要在中间改历史，让 KV 缓存静静地工作。

三、单智能体跑不过半小时，多智能体才能跑出效果

有研究测试过 Claude Opus 在时序任务上的表现：1 小时内成功率 90% 以上；超过 2 小时下降到 80%；5 小时跌到 50%。性价比最高的区间是 1 到 2 小时。

Team 模式的核心配置：

Leader：接收任务、拆解需求、分发、汇总
后端开发者：API、数据库、服务端逻辑
前端开发者：UI 实现和交互
研究员（通常两个并行）：读源码、查文档、调研方案
端到端测试：集成测试，验收各模块协作
代码 Review：功能完成后做质量检查

全程大概只介入了两三次，其他时间都是各智能体自己在沟通、拆任务、执行、验收、汇报。

四、harness 约束：你必须给模型套上框架

当前的模型无法做到"化腐朽为神奇"。没有框架，它就会自由发挥，而自由发挥的结果通常是不受控的。

约束体现在几个层面：

角色约束：每个智能体有明确的职责范围。文档约束：每个功能模块完成后必须更新文档。流程约束：探索先行，研究员读完源码之后开发者才开始动手。验收约束：功能完成后必须经过测试和 Review 两道关卡。

五、MCP 要少装，Skills 要多用

MCP 工具的定义在每次对话初始化时就会被完整注入。Skills 是按需动态加载。原则是：能用 Skills 实现的功能，不用 MCP。

六、模型选择没有你想的那么重要，但 Leader 要用好的

在多智能体的协作任务里，Opus 和 GPT-4.1 的表现差异没有想象中那么大。真正有差异的是 Leader 这个角色——它需要理解整体任务，拆解需求，协调多个实例。

实践建议：Leader 用最好的模型，其他执行角色按成本考量选择稍弱一些的模型。

七、上下文是你真正应该管理的资源

KV 缓存的命中率是上下文稳定性的问题。MCP 和 Skills 的选择是上下文初始占用的问题。CLAUDE.md 的长度是固定注入内容的问题。Team 模式的设计是控制单个实例上下文复杂度的问题。

初始加载要精简，历史记录不要破坏，切换要谨慎，复用要主动。

八、从零到服务器部署，工程经验不足不是障碍

我的工程经验是不足的。服务器怎么买，我之前不知道。但这个项目接近 10 万行代码，从零到部署上线，全程没有手写一行代码。

在 Team 模式下，你需要承担的是产品经理的角色，不是实现者的角色。你要清楚想要什么结果，知道怎么拆解目标，能判断输出是否符合预期。

小结

200K 上下文实际可用量可能只有 80K，MCP 是最大的隐藏消耗源
KV 缓存的命中率决定实际成本，不要在历史记录中间插入动态内容
单智能体跑不过半小时，Team 模式才能进入 1 到 2 小时的高效区间
harness 约束是让模型产生可预期输出的核心机制，不是可选项
MCP 少装，Skills 多用，按需加载优于静态注入
Leader 用好模型，执行角色按需选择
上下文是你真正需要管理的核心资源
工程经验不足不是障碍，但你需要承担产品经理而不是实现者的角色

CCTM Quitter 开源项目包含了上面提到的 Team 模式配置。

本文基于作者过去一个月的实际项目经验，消耗 token 约 8000-10000 美金，会员费约 200 美金。