吴恩达的 Agentic Workflow：四种 Agent 设计模式

吴恩达（Andrew Ng）把 AI Agent 的设计模式分成了四类：反思、工具使用、规划和多智能体协作。他的团队还做了一个有意思的实验——用 GPT-3.5 加上 agent 工作流，效果超过了裸跑 GPT-4。

非代理 vs 代理工作流

我们平时用大模型的方式，基本上是输入一个 prompt，模型从头到尾给一个回答。吴恩达打了个比方：就像你让一个人坐到键盘前写一篇文章，从头写到尾，不能回头看。

而 agent 工作流不一样。同样是写一篇文章，它可能会：

先写个大纲
想想是不是需要查点资料
写初稿
读一遍初稿，看哪些地方需要改
修改
再读一遍

多了一个"回头看"的过程，效果通常会更好。

四种设计模式

反思（Reflection）

反思是最直觉的一种模式。模型执行完任务后，自己检查一遍，看看有没有问题，有问题就改。

吴恩达团队举了个代码生成的例子：

你：帮我写一个函数，实现某个任务 Code agent：返回代码你：代码风格有问题，执行效果也不对，改一下 Code agent：发现 bug，返回修改后的版本你：单元测试没过，再改 Code agent：返回 v3 版本

来来回回几轮，可能得到一个不错的版本，也可能还是错的。但平均下来，反思之后的结果比一次性的好。

进一步想，你可以设两个 agent，一个写代码，一个审代码。审代码的那个就是 critic agent，两个角色都用同一个 LLM，但 prompt 不同。写代码的负责产出，审代码的负责挑刺。这样设计很简单，但在实际工作流中效果明显。

工具使用（Tool Use）

第二种模式是让 agent 调用外部工具。比如搜个东西、写段代码、查个数据库。

举两个例子：左边是在搜索工具里查"哪个咖啡机更好用"，右边是根据问题生成对应的代码。现在已经有大量 agent 被当工具使用，帮人分析数据、收集信息、提高生产力。

吴恩达提到，在 GPT-4、LLaVA 这些模型出来之前，tool use 就已经在计算机视觉领域广泛使用了。

规划（Planning）

第三种是让 agent 自己规划执行步骤，而不是一次性给出答案。

有个 HuggingGPT 的例子。输入："生成一张图片，一个女孩在看书，姿态和另一张图片里的男孩一样，然后用语音描述这张图片。"

一个非 agent 的模型大概率做不到。但 agent 会自己规划：

先从参考图里提取男孩的姿态
用姿态引导模型生成女孩看书的图片
用图生文模型把图片转成文字描述
用文生语音模型把文字转成语音

整个过程自动拆解，自动串联。有时候会出问题，但跑通了的时候效果很好。吴恩达说他自己已经在用 agent 做研究工作，把需求发给 agent，几分钟后可能得到有效的结果，也可能无效。不管怎样，已经成了他工作流程的一部分。

多智能体协作（Multi-agent Collaboration）

第四种是多 agent 协作。一个系统里有多个 agent，各有分工，互相配合。

ChatDev 是一个开源的多智能体系统。在里面你可以扮演 CEO、设计师、产品经理，这些角色都是通过 prompt 给大模型设定的。你告诉他们开发一款游戏，他们花几分钟写代码、测试、迭代，有时能生成相当不错的成果。

还有一个发现：让多个 agent 互相辩论，比如 GPT-4 和 Gemini 辩论某个问题，最终结果会比单个模型好。

不过吴恩达对 planning 和 multi-agent 的评价比较谨慎。他说用这两种模式的时候，经常被效果惊艳到，但感觉还做不到稳定可靠。相比之下，reflection 和 tool use 更成熟，用起来几乎总是有效的。

一个关键实验

团队做了一个代码基准测试。用 zero-shot prompting，GPT-3.5 的通过率是 48%，GPT-4 是 67%。

但如果给 GPT-3.5 加上 agent 工作流，它的表现超过了裸跑的 GPT-4。

这个实验的结论是：好的 agent 设计，可以让较弱的模型在某些领域追平甚至超过更强的模型。反过来说，如果你手上没有最强的模型，agent 工作流是一种性价比很高的提升手段。

关于未来

吴恩达认为，agent 的出现会大幅扩展 AI 能做的事。但有一个现实问题：agent 需要时间思考、迭代、执行，不像 zero-shot 那样半秒出结果。人天然喜欢即时反馈，十年前他在谷歌推长搜索失败，一个原因就是用户不愿意等。所以用 agent 需要有耐心，可能要等几分钟甚至几个小时。

另一个值得关注的点是 token 生成速度。agent 不断循环迭代会产生大量中间 token，如果能比人类阅读速度更快地生成这些 token，体验会好很多。吴恩达甚至认为，有时候一个生成速度快但质量一般的 LLM，可能比质量高但速度慢的 LLM 更适合 agent 工作流。这个观点可能有人不同意，但值得考虑。

最后他总结了一句话：通往 AGI 的路更像一段旅程，而不是一个目的地。这套 agent 工作流，至少能让我们往前迈出一小步。