Anthropic 长时运行 Agent 驾驭框架：解决 AI 编程助手的失忆问题

本文介绍 Anthropic 工程团队关于长时运行 Agent 的最新研究成果。文章提出了一种"Harness（驾驭框架）"机制，通过 Initializer Agent 和 Coding Agent 的协作，解决了长时运行 Agent 在上下文重置后"失忆"的核心问题，为多会话协作的 AI 编程助手提供了工程化解决方案。

核心问题：Agent 的"失忆"困境

长时运行 Agent 面临一个根本性挑战：每个新会话开始时都对之前发生的事情一无所知。作者将其比喻为"轮班工作的工程师，每位新工程师到岗时都对上一班发生的事情毫无记忆"。

在 Claude Code 等 AI 编程助手的实际使用中，这个问题表现为：

长时间任务需要多次会话接力完成
每次新会话都需要重新理解项目上下文
容易重复之前已经做过的工作
难以保持代码质量和开发节奏的一致性

解决方案：Harness 驾驭框架

Anthropic 团队提出了一个双重 Agent 架构来解决这个问题：

1. Initializer Agent（初始化代理）

首次运行时负责环境搭建：

创建 init.sh 脚本用于启动开发服务器
建立 claude-progress.txt 进度日志文件
执行初始 git commit
生成功能清单文件：包含 200+ 个详细需求的 JSON 文件，初始状态全部标记为"未通过"

2. Coding Agent（编码代理）

在每个会话中执行增量开发：

一次只处理一个功能点，避免范围蔓延
保持"干净状态"：代码始终处于可合并状态
使用描述性提交信息记录变更
实时更新进度文件

关键失败模式与解决方案

问题	解决方案
过早宣布胜利	结构化功能清单防止提前完成声明
遗留 Bug 或未文档化的代码	Git 提交 + 进度日志 + 验证测试
过早标记功能完成	通过浏览器自动化进行强制端到端测试
浪费时间在环境配置上	标准化的 `init.sh` 脚本

关键技术细节

功能清单格式

团队推荐使用 JSON 而非 Markdown：

json

{
  "category": "functional",
  "description": "New chat button creates fresh conversation",
  "steps": [
    "Navigate to main interface",
    "Click 'New Chat' button",
    "Verify new conversation is created"
  ],
  "passes": false
}

JSON 格式的优势：

机器可读，便于自动化处理
支持结构化查询和过滤
易于版本控制和 diff 对比

会话启动流程

每个新会话遵循标准化启动流程：

执行 pwd 确认工作目录
读取 git 日志和进度文件
读取功能清单，选择最高优先级的未完成项
运行 init.sh 启动开发服务器
在任何新工作之前测试基础功能

测试改进：Puppeteer MCP

团队使用 Puppeteer MCP 进行浏览器自动化测试，显著提升了 Bug 检测能力。虽然仍有局限（如无法看到原生 alert 弹窗），但相比纯代码审查已经大幅改善了验证流程。

实际应用效果

这种 Harness 框架在实际项目中展现出以下优势：

可恢复性：会话中断后可以从精确位置恢复
可追溯性：完整的 git 历史和进度日志
质量保证：每个功能都有明确的验收标准
协作友好：多 Agent 可以基于统一规范协作

未来方向

文章还展望了该框架的扩展可能：

多 Agent 架构：引入专门的测试 Agent、QA Agent、代码清理 Agent
领域泛化：从 Web 应用扩展到科学研究、金融建模等领域
更智能的上下文管理：自动识别和保留关键上下文信息

对开发者的启示

对于使用 Claude Code 等 AI 编程助手的开发者，这篇文章提供了以下实践建议：

建立标准化的项目启动脚本，确保每次会话环境一致
维护结构化的任务清单，让 Agent 明确知道当前进度
强制测试验证，避免"看起来对了"就提交
保持小而频繁的提交，便于回溯和恢复

项目链接

原文链接: https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents
作者: Justin Young (Anthropic)
发布时间: 2025年11月26日

总结

Anthropic 的这项研究为长时运行 Agent 的工程化提供了重要思路。通过标准化的初始化流程、结构化的进度追踪和强制性的测试验证，可以有效解决多会话协作中的"失忆"问题。这对于需要长时间运行的 AI 辅助开发任务具有重要的实践指导意义。