Agent 到底是什么：从对话到动作的四级阶梯

01四级阶梯FOUR RUNGS

把"AI 能做什么"摆成一个梯子，Agent 站在第四级，每上一级，系统多一种权力：

第一级，对话。模型接收文字、返回文字。它没有任何超出对话框的权力，错了也只是错一段话。ChatGPT 的原始形态就在这一级。

第二级，检索增强。回答之前先去资料里找依据（这就是 RAG）。模型多了"读"的权力，但依然只输出文字。

第三级，工具调用。模型可以请求执行外部动作：查数据库、调 API、算一笔账。注意措辞——是"请求"，每次调用都由外层程序真正执行。模型第一次拥有了"做"的权力，但一次只做一步。

第四级，Agent。把第三级放进循环：模型看当前状态 → 决定下一步动作 → 执行 → 看结果 → 再决定，直到判断任务完成。没有人在每一步之间点确认，这就是"自主"的真实含义——不是它更聪明了，而是循环里没有人。

Agent 的核心是一个朴素的循环，伪代码只有四行：观察（把任务和当前状态给模型）→ 决策（模型输出下一个动作）→ 执行（程序真正运行那个动作）→ 更新（把结果放回状态）。循环终止的条件通常是模型自己宣布"完成"，或者步数、成本触顶。

这个循环解释了 Agent 的全部脾气。它能干成复杂的事，因为每一步都能看到上一步的结果，走错了可以调整；它也能错得离谱，因为一步的误判会成为下一步的前提，在循环里滚雪球。所以评价 Agent 不能只看终点，要能回看每一步——这是"轨迹"（trace）这个词的由来。

循环的另一个特征是开销。每转一圈都要把状态重新给模型看一遍，圈数越多消耗越大、上下文越长。这就是为什么真实系统都有步数上限、成本上限和超时——不是不信任模型，是循环本身需要缰绳。

模型是决策器，决定每一步做什么。它可以被换掉，Agent 的骨架不变——所以"我们用了 X 模型"从来不是 Agent 项目的核心卖点。

工具是手脚，也是权限清单。给什么工具，它就有什么能力：给了发邮件的工具，它才可能发出邮件。工具列表就是这个 Agent 的权力边界——审查一个 Agent，先看它的工具清单，比看它的提示词更快。

记忆是状态。短期记忆是本次任务的上下文（干完就忘），长期记忆是跨任务的存储（要专门去建）。很多"Agent 记性差"的抱怨，往往是没设计长期记忆，而不是模型健忘。

停止条件最容易被忽略，却最能看出设计者的成熟度：什么时候宣布成功、什么时候认输求助、什么时候强制熔断。一个不会停的 Agent 比一个不会做的 Agent 危险得多。

把"会调工具"当成"能自动完成业务"。第三级和第四级之间隔着循环，第四级和"可上业务"之间还隔着授权、审核、回退和日志。演示视频通常展示的是最顺利的一条路径，业务要求的是最糟糕路径也能兜住。

把 Agent 当成一个产品品类。它是一种架构形态。同一个"客服 Agent"，可以是只会检索的第二级，也可以是能开工单退款的第四级——名字一样，风险差着数量级。听到"Agent"先问：它被授权做哪些动作？

把自主当成目标。自主是手段，不是荣誉。循环里没有人，意味着错误也没有人拦。成熟的设计是给循环开口子：低风险步骤放行，高风险动作弹出来等人确认——自主程度应该由后果决定，不是由技术能力决定。

这份底稿的每个概念，站内都有对应的正式判断：循环里该不该有人、人卡在哪一步，见 N-001 邮件边界；工具清单即权力边界的展开，见 N-006 边界不清为什么失败；怎么回看循环的每一步，见 N-007 trace 与 replay；整个"谁授权、谁负责"的宏观框架，见 N-011 责任结构的重写。

底稿负责让概念站稳，笔记负责让判断落地。学完这页再读那四篇，会顺畅不少。