Anthropic 内部怎么评估 AI Agent？三层体系

Anthropic 工程团队最近发了一篇博客，把 AI Agent 评估这件事从头到尾讲了一遍。对于正在开发 Agent 的团队来说，这是目前最实用的参考指南。

评估 Agent 比评估传统模型难得多。传统模型是输入输出一一对应，评估就是比对准确率。Agent 是自主的、多步骤的，同一个任务可能有多种正确的完成路径，简单的准确率指标根本无法衡量。

Anthropic 的建议是分三层来做。第一层，单元测试级别的评估：单独的 tool call 是否正确，单独的推理步骤是否合理。第二层，任务级别的评估：完整的任务是否完成，完成质量如何。第三层，用户级别的评估：整体体验是否符合预期。

评分器的选择同样关键。LLM-as-Judge 是当前最实用的方案，但要避免模型偏好问题。Anthropic 的做法是给评分器提供清晰的评分标准和参考示例，而不是让它自由发挥。

评估体系不是一次建完就完事的。Agent 在迭代，评估数据也要持续更新。每次生产环境出现异常时，把异常案例加入评估集，防止回归。