ByteNoteByteNote

字节笔记本

2026年2月16日

Anthropic 长时运行 Agent 驾驭框架:解决 AI 编程助手的失忆问题

API中转
¥120

本文介绍 Anthropic 工程团队关于长时运行 Agent 的最新研究成果。文章提出了一种"Harness(驾驭框架)"机制,通过 Initializer Agent 和 Coding Agent 的协作,解决了长时运行 Agent 在上下文重置后"失忆"的核心问题,为多会话协作的 AI 编程助手提供了工程化解决方案。

核心问题:Agent 的"失忆"困境

长时运行 Agent 面临一个根本性挑战:每个新会话开始时都对之前发生的事情一无所知。作者将其比喻为"轮班工作的工程师,每位新工程师到岗时都对上一班发生的事情毫无记忆"。

在 Claude Code 等 AI 编程助手的实际使用中,这个问题表现为:

  • 长时间任务需要多次会话接力完成
  • 每次新会话都需要重新理解项目上下文
  • 容易重复之前已经做过的工作
  • 难以保持代码质量和开发节奏的一致性

解决方案:Harness 驾驭框架

Anthropic 团队提出了一个双重 Agent 架构来解决这个问题:

1. Initializer Agent(初始化代理)

首次运行时负责环境搭建:

  • 创建 init.sh 脚本用于启动开发服务器
  • 建立 claude-progress.txt 进度日志文件
  • 执行初始 git commit
  • 生成功能清单文件:包含 200+ 个详细需求的 JSON 文件,初始状态全部标记为"未通过"

2. Coding Agent(编码代理)

在每个会话中执行增量开发:

  • 一次只处理一个功能点,避免范围蔓延
  • 保持"干净状态":代码始终处于可合并状态
  • 使用描述性提交信息记录变更
  • 实时更新进度文件

关键失败模式与解决方案

问题解决方案
过早宣布胜利结构化功能清单防止提前完成声明
遗留 Bug 或未文档化的代码Git 提交 + 进度日志 + 验证测试
过早标记功能完成通过浏览器自动化进行强制端到端测试
浪费时间在环境配置上标准化的 init.sh 脚本

关键技术细节

功能清单格式

团队推荐使用 JSON 而非 Markdown:

json
{
  "category": "functional",
  "description": "New chat button creates fresh conversation",
  "steps": [
    "Navigate to main interface",
    "Click 'New Chat' button",
    "Verify new conversation is created"
  ],
  "passes": false
}

JSON 格式的优势:

  • 机器可读,便于自动化处理
  • 支持结构化查询和过滤
  • 易于版本控制和 diff 对比

会话启动流程

每个新会话遵循标准化启动流程:

  1. 执行 pwd 确认工作目录
  2. 读取 git 日志和进度文件
  3. 读取功能清单,选择最高优先级的未完成项
  4. 运行 init.sh 启动开发服务器
  5. 在任何新工作之前测试基础功能

测试改进:Puppeteer MCP

团队使用 Puppeteer MCP 进行浏览器自动化测试,显著提升了 Bug 检测能力。虽然仍有局限(如无法看到原生 alert 弹窗),但相比纯代码审查已经大幅改善了验证流程。

实际应用效果

这种 Harness 框架在实际项目中展现出以下优势:

  1. 可恢复性:会话中断后可以从精确位置恢复
  2. 可追溯性:完整的 git 历史和进度日志
  3. 质量保证:每个功能都有明确的验收标准
  4. 协作友好:多 Agent 可以基于统一规范协作

未来方向

文章还展望了该框架的扩展可能:

  • 多 Agent 架构:引入专门的测试 Agent、QA Agent、代码清理 Agent
  • 领域泛化:从 Web 应用扩展到科学研究、金融建模等领域
  • 更智能的上下文管理:自动识别和保留关键上下文信息

对开发者的启示

对于使用 Claude Code 等 AI 编程助手的开发者,这篇文章提供了以下实践建议:

  1. 建立标准化的项目启动脚本,确保每次会话环境一致
  2. 维护结构化的任务清单,让 Agent 明确知道当前进度
  3. 强制测试验证,避免"看起来对了"就提交
  4. 保持小而频繁的提交,便于回溯和恢复

项目链接

总结

Anthropic 的这项研究为长时运行 Agent 的工程化提供了重要思路。通过标准化的初始化流程、结构化的进度追踪和强制性的测试验证,可以有效解决多会话协作中的"失忆"问题。这对于需要长时间运行的 AI 辅助开发任务具有重要的实践指导意义。

分享: