Cursor - 扩展长时间运行的自主编码能力

本文介绍了 Cursor 团队在让编码 Agent 运行数周且完全自主工作方面的探索成果。通过同时运行数百个并发 Agent，协调它们的工作，成功写出超过一百万行代码和数万亿个 token。

来源: Cursor 博客作者: Wilson Lin 发布时间: 2026年1月14日 原文链接: https://cursor.com/cn/blog/scaling-agents

核心要点

单个 Agent 的局限

在专注的小任务上表现不错，但在复杂项目上显得缓慢
并行运行多个 Agent 需要搞清楚如何协调它们

学习如何协同

最初方法（动态协调）:

所有 Agent 平等，通过共享文件自行协同
使用锁机制防止任务抢占

失败原因:

Agent 持有锁太久或忘记释放
锁机制成为瓶颈（20 个 Agent 降至 2-3 个有效吞吐量）
系统脆弱，容易失败
Agent 回避困难任务，缺乏端到端责任

规划者和执行者

新的架构 - 将角色拆分开来：

规划者（Planners）:

持续探索代码库并创建任务
可针对特定区域派生子规划者
规划过程本身可以并行且递归地展开

执行者（Workers）:

领取任务并专注完成
不与其他执行者协调
完成后提交变更

每个周期结束时，评审 Agent 判断是否继续，下一轮迭代从干净的初始状态重新开始。

实验成果

从零构建浏览器

持续运行近一周
1,000 个文件，超过 100 万行代码
成百上千个 worker 并发运行
几乎没有冲突
GitHub: fastrender

Solid 到 React 迁移

持续 3 周多
代码增删量达 +266K/-193K
有可能合并这次大规模改动

其他实验

项目	提交次数	代码行数
Java LSP	7.4K	55 万
Windows 7 模拟器	14.6K	120 万
Excel	12K	160 万
视频渲染优化	-	25 倍速度提升

关键发现

模型选择至关重要

GPT-5.2 系列在长时间自主工作方面更优秀
更能遵循指令、保持专注、避免偏离
实现更精确和完整
不同模型在不同角色上各有所长
GPT-5.2 仍是更好的规划者

"减法"优于"加法"

质量控制和冲突解决的集成者角色成为瓶颈
Worker 本身已能处理彼此之间的冲突
最好的系统往往比你想的更简单

结构化程度

结构太少：Agent 互相冲突、重复劳动、偏离
结构太多：系统变得脆弱
合适的结构介于两端之间

提示词的重要性

系统行为很大程度上取决于提示词设计
让 Agent 良好协作、避免异常行为
保持长时间专注需要大量实验

未来方向

当前挑战

Planner 应该在任务完成时自动"醒来"
Agent 有时会运行时间过长
仍需定期从头重启以对抗漂移

核心发现

"能否通过向一个问题投入更多 Agent 来扩展自主编码能力"，答案比预期更乐观。

上百个 Agent 可以在同一个代码库上协同工作数周，推动雄心勃勃的项目取得实质进展。

字节笔记本