ByteNoteByteNote

字节笔记本

2026年6月7日

烧掉一万刀 token,换来这八条 Claude Code 实战铁律

API中转
¥120

用了两个 Max 20x 会员,加上通过 API 消耗的 8000 到 10000 刀的 token,这是我过去一个月做 Web Coding 的全部账单。

代价换来的,不是"使用技巧合集",而是一套和模型打交道的工程认知——哪些地方踩坑会让成本翻十倍,哪些地方做对了可以让模型跑上几个小时不出岔子。

一、你以为有 200K 上下文,实际上只有 80K

200K 的 58% 被各种系统开销吃掉了,留给你真正干活的空间不到一半。

这些空间都去哪里了?

系统提示词和系统工具:约 30K,不可动。

自动压缩预留:约 33K(16%)。 Claude Code 会留出这块空间用于上下文压缩。预留了相当大的余量,结果这 33K 基本上是空着的死区。

MCP 工具:大坑。 每个 MCP 工具的定义本身就要占 token,哪怕你根本没用它,它的 schema 已经在消耗你的上下文了。最后的做法是只保留 playwright 这一个,其他全部卸载。

CLAUDE.md 文档。 每次对话开始时自动注入。写得越详细,消耗越多。现在不超过 100 行,主要写文件结构、核心规则、反复出现的失败模式、偏好的技术栈。

Skills 文件。 Skills 是动态加载的,按需调用,不会在初始化时吃掉固定的上下文空间。所以能用 skills 实现的功能,不要用 MCP 来做。

二、KV 缓存是你最不该忽视的成本开关

模型生成文本是自回归的,生成每一个新 token 都要跟前面所有 token 做注意力计算。对话历史的 KV 一旦计算出来就不会变了,缓存住之后,下次只需要计算新内容的 Q 就够了。

如果没有 KV 缓存,每生成一个 token 都要把几十万 token 的历史重新算一次。成本是灾难性的。

如果 Max 20x 会员没有 KV 缓存,别说 200 美金一个月,2000 美金都抵不住。

KV 缓存有一个绝对不能违反的使用规则:不要修改历史记录中间的内容。 如果在 system prompt 里加一行动态时间戳,会让该位置之后所有 token 的 KV 全部失效。

一个任务,从头到尾用一个模型,不要在中间切换,不要在中间改历史,让 KV 缓存静静地工作。

三、单智能体跑不过半小时,多智能体才能跑出效果

有研究测试过 Claude Opus 在时序任务上的表现:1 小时内成功率 90% 以上;超过 2 小时下降到 80%;5 小时跌到 50%。性价比最高的区间是 1 到 2 小时。

Team 模式的核心配置:

  • Leader:接收任务、拆解需求、分发、汇总
  • 后端开发者:API、数据库、服务端逻辑
  • 前端开发者:UI 实现和交互
  • 研究员(通常两个并行):读源码、查文档、调研方案
  • 端到端测试:集成测试,验收各模块协作
  • 代码 Review:功能完成后做质量检查

全程大概只介入了两三次,其他时间都是各智能体自己在沟通、拆任务、执行、验收、汇报。

四、harness 约束:你必须给模型套上框架

当前的模型无法做到"化腐朽为神奇"。没有框架,它就会自由发挥,而自由发挥的结果通常是不受控的。

约束体现在几个层面:

角色约束:每个智能体有明确的职责范围。文档约束:每个功能模块完成后必须更新文档。流程约束:探索先行,研究员读完源码之后开发者才开始动手。验收约束:功能完成后必须经过测试和 Review 两道关卡。

五、MCP 要少装,Skills 要多用

MCP 工具的定义在每次对话初始化时就会被完整注入。Skills 是按需动态加载。原则是:能用 Skills 实现的功能,不用 MCP。

六、模型选择没有你想的那么重要,但 Leader 要用好的

在多智能体的协作任务里,Opus 和 GPT-4.1 的表现差异没有想象中那么大。真正有差异的是 Leader 这个角色——它需要理解整体任务,拆解需求,协调多个实例。

实践建议:Leader 用最好的模型,其他执行角色按成本考量选择稍弱一些的模型。

七、上下文是你真正应该管理的资源

KV 缓存的命中率是上下文稳定性的问题。MCP 和 Skills 的选择是上下文初始占用的问题。CLAUDE.md 的长度是固定注入内容的问题。Team 模式的设计是控制单个实例上下文复杂度的问题。

初始加载要精简,历史记录不要破坏,切换要谨慎,复用要主动。

八、从零到服务器部署,工程经验不足不是障碍

我的工程经验是不足的。服务器怎么买,我之前不知道。但这个项目接近 10 万行代码,从零到部署上线,全程没有手写一行代码。

在 Team 模式下,你需要承担的是产品经理的角色,不是实现者的角色。你要清楚想要什么结果,知道怎么拆解目标,能判断输出是否符合预期。

小结

  1. 200K 上下文实际可用量可能只有 80K,MCP 是最大的隐藏消耗源
  2. KV 缓存的命中率决定实际成本,不要在历史记录中间插入动态内容
  3. 单智能体跑不过半小时,Team 模式才能进入 1 到 2 小时的高效区间
  4. harness 约束是让模型产生可预期输出的核心机制,不是可选项
  5. MCP 少装,Skills 多用,按需加载优于静态注入
  6. Leader 用好模型,执行角色按需选择
  7. 上下文是你真正需要管理的核心资源
  8. 工程经验不足不是障碍,但你需要承担产品经理而不是实现者的角色

CCTM Quitter 开源项目包含了上面提到的 Team 模式配置。

本文基于作者过去一个月的实际项目经验,消耗 token 约 8000-10000 美金,会员费约 200 美金。

分享: