Claude Code subagent token 优化：5 步省下 50% 的配方

使用 Claude Code 时，开越多 subagent 并不意味着越省 token。实际上，Anthropic 在 subagent 之间根本不共享 prefix，这会导致 token 消耗成倍增长。以下是经过实践验证的 5 步省 token 配方。

核心问题：subagent 是冷启动

subagent 是独立上下文，没有跨实例的 prefix 共享机制。开 N 个 subagent 基本就是 N 份 token 开销。很多人被"并行 = 更快 = 更好"误导了，忽视了背后的 token 经济。

5 步省 token 配方

1. 默认单 agent 串行

除非任务真正互相无依赖，否则使用 1 个 agent 顺序执行。整个执行时间差不多，但 token 直接省一半。

2. 压缩 brief 再派发

subagent 派出去前，在主对话中将上下文压缩成 200 字 brief 再传递。不要把整段 PRD、整个 repo 整块塞过去， Anthropic 没有提供跨 subagent 的 prefix 复用机制。subagent 启动时会把你的完整上下文几乎重发一遍，token 瞬间耗尽。

3. 利用 prompt cache

Anthropic 的 prompt cache 对打了 cache_control breakpoint 的内容有约 1 小时的 TTL。cache hit 对 cached token 收取约 10% 的读取费用。subagent 在窗口内连续 spawn 比间隔 10 分钟便宜一个数量级。合理规划 subagent 的启动时间，在 cache 有效期内集中使用。

4. 主 agent 吃长文档、subagent 只拿摘要

50K context 只塞主 agent 一次，不要让 N 个 worker 各自重读相同的长文档。主 agent 负责消化复杂信息，subagent 只接收精简后的任务描述。

5. 监控 input/output token 比例

如果某个 subagent 的 input/output token 比例大于 10:1，说明大量 token 花在 prefix 上了，应该合并回主 agent 处理。

本质洞察

信息压缩应该发生在 subagent 调度层面。subagent 不是免费线程，是另一笔全额 token 重发。为什么不先 brief 再开始？

把长上下文留在主对话，用精简指令驱动 subagent，这才是真正省 token 的做法。

AI Agent 正在从实验走向生产。越来越多的企业开始在生产环境中部署 Agent，处理客服、运维、数据分析和内部支持等场景。Agent 的生产化部署面临一些实际挑战。可靠性和一致性是最核心的问题，Agent 需要稳定地执行任务，不会出现大起大落的表现波动。监控和可观测性是确保 Agent 稳定运行的基础，每一步的调用记录、token 消耗、执行时间都需要详细记录。Agent 的评估也是一个复杂的问题，传统的离线评估无法完全反映 Agent 在生产环境中的表现，需要结合在线评估和人工抽查。安全性和合规性是 Agent 落地中不可忽视的问题，Agent 的自主性越高，潜在的风险也越大。建议在关键决策点设置人工审核环节，确保 Agent 不会独立执行高风险操作。

技术的价值不在于它有多前沿，而在于它能在多大程度上解决实际问题。AI 技术的快速迭代不是用来追赶的潮流，而是用来解决业务痛点的工具箱。在实际应用中，有时候简单的方案反而最有效。一个 RAG 系统用了最复杂的检索策略但文档处理没做好，效果不如一个文档处理完善但检索策略简单的系统。一个 Agent 系统用了最贵的模型但 prompt 设计粗糙，效果不如一个精心设计 prompt 的普通模型。建议在追求技术先进性之前，先把基础工作做扎实。文档清洗、数据标注、评测体系、监控告警，这些看似基础的工作，往往是决定 AI 项目成败的关键。