字
字节笔记本
2026年2月16日
Anthropic 长时运行 Agent 驾驭框架:解决 AI 编程助手的失忆问题
API中转
¥120
本文介绍 Anthropic 工程团队关于长时运行 Agent 的最新研究成果。文章提出了一种"Harness(驾驭框架)"机制,通过 Initializer Agent 和 Coding Agent 的协作,解决了长时运行 Agent 在上下文重置后"失忆"的核心问题,为多会话协作的 AI 编程助手提供了工程化解决方案。
核心问题:Agent 的"失忆"困境
长时运行 Agent 面临一个根本性挑战:每个新会话开始时都对之前发生的事情一无所知。作者将其比喻为"轮班工作的工程师,每位新工程师到岗时都对上一班发生的事情毫无记忆"。
在 Claude Code 等 AI 编程助手的实际使用中,这个问题表现为:
- 长时间任务需要多次会话接力完成
- 每次新会话都需要重新理解项目上下文
- 容易重复之前已经做过的工作
- 难以保持代码质量和开发节奏的一致性
解决方案:Harness 驾驭框架
Anthropic 团队提出了一个双重 Agent 架构来解决这个问题:
1. Initializer Agent(初始化代理)
首次运行时负责环境搭建:
- 创建
init.sh脚本用于启动开发服务器 - 建立
claude-progress.txt进度日志文件 - 执行初始 git commit
- 生成功能清单文件:包含 200+ 个详细需求的 JSON 文件,初始状态全部标记为"未通过"
2. Coding Agent(编码代理)
在每个会话中执行增量开发:
- 一次只处理一个功能点,避免范围蔓延
- 保持"干净状态":代码始终处于可合并状态
- 使用描述性提交信息记录变更
- 实时更新进度文件
关键失败模式与解决方案
| 问题 | 解决方案 |
|---|---|
| 过早宣布胜利 | 结构化功能清单防止提前完成声明 |
| 遗留 Bug 或未文档化的代码 | Git 提交 + 进度日志 + 验证测试 |
| 过早标记功能完成 | 通过浏览器自动化进行强制端到端测试 |
| 浪费时间在环境配置上 | 标准化的 init.sh 脚本 |
关键技术细节
功能清单格式
团队推荐使用 JSON 而非 Markdown:
json
{
"category": "functional",
"description": "New chat button creates fresh conversation",
"steps": [
"Navigate to main interface",
"Click 'New Chat' button",
"Verify new conversation is created"
],
"passes": false
}JSON 格式的优势:
- 机器可读,便于自动化处理
- 支持结构化查询和过滤
- 易于版本控制和 diff 对比
会话启动流程
每个新会话遵循标准化启动流程:
- 执行
pwd确认工作目录 - 读取 git 日志和进度文件
- 读取功能清单,选择最高优先级的未完成项
- 运行
init.sh启动开发服务器 - 在任何新工作之前测试基础功能
测试改进:Puppeteer MCP
团队使用 Puppeteer MCP 进行浏览器自动化测试,显著提升了 Bug 检测能力。虽然仍有局限(如无法看到原生 alert 弹窗),但相比纯代码审查已经大幅改善了验证流程。
实际应用效果
这种 Harness 框架在实际项目中展现出以下优势:
- 可恢复性:会话中断后可以从精确位置恢复
- 可追溯性:完整的 git 历史和进度日志
- 质量保证:每个功能都有明确的验收标准
- 协作友好:多 Agent 可以基于统一规范协作
未来方向
文章还展望了该框架的扩展可能:
- 多 Agent 架构:引入专门的测试 Agent、QA Agent、代码清理 Agent
- 领域泛化:从 Web 应用扩展到科学研究、金融建模等领域
- 更智能的上下文管理:自动识别和保留关键上下文信息
对开发者的启示
对于使用 Claude Code 等 AI 编程助手的开发者,这篇文章提供了以下实践建议:
- 建立标准化的项目启动脚本,确保每次会话环境一致
- 维护结构化的任务清单,让 Agent 明确知道当前进度
- 强制测试验证,避免"看起来对了"就提交
- 保持小而频繁的提交,便于回溯和恢复
项目链接
- 原文链接: https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents
- 作者: Justin Young (Anthropic)
- 发布时间: 2025年11月26日
总结
Anthropic 的这项研究为长时运行 Agent 的工程化提供了重要思路。通过标准化的初始化流程、结构化的进度追踪和强制性的测试验证,可以有效解决多会话协作中的"失忆"问题。这对于需要长时间运行的 AI 辅助开发任务具有重要的实践指导意义。
分享: