字节笔记本
2026年6月7日
烧掉一万刀 token,换来这八条 Claude Code 实战铁律
用了两个 Max 20x 会员,加上通过 API 消耗的 8000 到 10000 刀的 token,这是我过去一个月做 Web Coding 的全部账单。
代价换来的,不是"使用技巧合集",而是一套和模型打交道的工程认知——哪些地方踩坑会让成本翻十倍,哪些地方做对了可以让模型跑上几个小时不出岔子。
一、你以为有 200K 上下文,实际上只有 80K
200K 的 58% 被各种系统开销吃掉了,留给你真正干活的空间不到一半。
这些空间都去哪里了?
系统提示词和系统工具:约 30K,不可动。
自动压缩预留:约 33K(16%)。 Claude Code 会留出这块空间用于上下文压缩。预留了相当大的余量,结果这 33K 基本上是空着的死区。
MCP 工具:大坑。 每个 MCP 工具的定义本身就要占 token,哪怕你根本没用它,它的 schema 已经在消耗你的上下文了。最后的做法是只保留 playwright 这一个,其他全部卸载。
CLAUDE.md 文档。 每次对话开始时自动注入。写得越详细,消耗越多。现在不超过 100 行,主要写文件结构、核心规则、反复出现的失败模式、偏好的技术栈。
Skills 文件。 Skills 是动态加载的,按需调用,不会在初始化时吃掉固定的上下文空间。所以能用 skills 实现的功能,不要用 MCP 来做。
二、KV 缓存是你最不该忽视的成本开关
模型生成文本是自回归的,生成每一个新 token 都要跟前面所有 token 做注意力计算。对话历史的 KV 一旦计算出来就不会变了,缓存住之后,下次只需要计算新内容的 Q 就够了。
如果没有 KV 缓存,每生成一个 token 都要把几十万 token 的历史重新算一次。成本是灾难性的。
如果 Max 20x 会员没有 KV 缓存,别说 200 美金一个月,2000 美金都抵不住。
KV 缓存有一个绝对不能违反的使用规则:不要修改历史记录中间的内容。 如果在 system prompt 里加一行动态时间戳,会让该位置之后所有 token 的 KV 全部失效。
一个任务,从头到尾用一个模型,不要在中间切换,不要在中间改历史,让 KV 缓存静静地工作。
三、单智能体跑不过半小时,多智能体才能跑出效果
有研究测试过 Claude Opus 在时序任务上的表现:1 小时内成功率 90% 以上;超过 2 小时下降到 80%;5 小时跌到 50%。性价比最高的区间是 1 到 2 小时。
Team 模式的核心配置:
- Leader:接收任务、拆解需求、分发、汇总
- 后端开发者:API、数据库、服务端逻辑
- 前端开发者:UI 实现和交互
- 研究员(通常两个并行):读源码、查文档、调研方案
- 端到端测试:集成测试,验收各模块协作
- 代码 Review:功能完成后做质量检查
全程大概只介入了两三次,其他时间都是各智能体自己在沟通、拆任务、执行、验收、汇报。
四、harness 约束:你必须给模型套上框架
当前的模型无法做到"化腐朽为神奇"。没有框架,它就会自由发挥,而自由发挥的结果通常是不受控的。
约束体现在几个层面:
角色约束:每个智能体有明确的职责范围。文档约束:每个功能模块完成后必须更新文档。流程约束:探索先行,研究员读完源码之后开发者才开始动手。验收约束:功能完成后必须经过测试和 Review 两道关卡。
五、MCP 要少装,Skills 要多用
MCP 工具的定义在每次对话初始化时就会被完整注入。Skills 是按需动态加载。原则是:能用 Skills 实现的功能,不用 MCP。
六、模型选择没有你想的那么重要,但 Leader 要用好的
在多智能体的协作任务里,Opus 和 GPT-4.1 的表现差异没有想象中那么大。真正有差异的是 Leader 这个角色——它需要理解整体任务,拆解需求,协调多个实例。
实践建议:Leader 用最好的模型,其他执行角色按成本考量选择稍弱一些的模型。
七、上下文是你真正应该管理的资源
KV 缓存的命中率是上下文稳定性的问题。MCP 和 Skills 的选择是上下文初始占用的问题。CLAUDE.md 的长度是固定注入内容的问题。Team 模式的设计是控制单个实例上下文复杂度的问题。
初始加载要精简,历史记录不要破坏,切换要谨慎,复用要主动。
八、从零到服务器部署,工程经验不足不是障碍
我的工程经验是不足的。服务器怎么买,我之前不知道。但这个项目接近 10 万行代码,从零到部署上线,全程没有手写一行代码。
在 Team 模式下,你需要承担的是产品经理的角色,不是实现者的角色。你要清楚想要什么结果,知道怎么拆解目标,能判断输出是否符合预期。
小结
- 200K 上下文实际可用量可能只有 80K,MCP 是最大的隐藏消耗源
- KV 缓存的命中率决定实际成本,不要在历史记录中间插入动态内容
- 单智能体跑不过半小时,Team 模式才能进入 1 到 2 小时的高效区间
- harness 约束是让模型产生可预期输出的核心机制,不是可选项
- MCP 少装,Skills 多用,按需加载优于静态注入
- Leader 用好模型,执行角色按需选择
- 上下文是你真正需要管理的核心资源
- 工程经验不足不是障碍,但你需要承担产品经理而不是实现者的角色
CCTM Quitter 开源项目包含了上面提到的 Team 模式配置。
本文基于作者过去一个月的实际项目经验,消耗 token 约 8000-10000 美金,会员费约 200 美金。