01四级阶梯FOUR RUNGS
把"AI 能做什么"摆成一个梯子,Agent 站在第四级,每上一级,系统多一种权力:
第一级,对话。模型接收文字、返回文字。它没有任何超出对话框的权力,错了也只是错一段话。ChatGPT 的原始形态就在这一级。
第二级,检索增强。回答之前先去资料里找依据(这就是 RAG)。模型多了"读"的权力,但依然只输出文字。
第三级,工具调用。模型可以请求执行外部动作:查数据库、调 API、算一笔账。注意措辞——是"请求",每次调用都由外层程序真正执行。模型第一次拥有了"做"的权力,但一次只做一步。
第四级,Agent。把第三级放进循环:模型看当前状态 → 决定下一步动作 → 执行 → 看结果 → 再决定,直到判断任务完成。没有人在每一步之间点确认,这就是"自主"的真实含义——不是它更聪明了,而是循环里没有人。
02循环的解剖THE LOOP
Agent 的核心是一个朴素的循环,伪代码只有四行:观察(把任务和当前状态给模型)→ 决策(模型输出下一个动作)→ 执行(程序真正运行那个动作)→ 更新(把结果放回状态)。循环终止的条件通常是模型自己宣布"完成",或者步数、成本触顶。
这个循环解释了 Agent 的全部脾气。它能干成复杂的事,因为每一步都能看到上一步的结果,走错了可以调整;它也能错得离谱,因为一步的误判会成为下一步的前提,在循环里滚雪球。所以评价 Agent 不能只看终点,要能回看每一步——这是"轨迹"(trace)这个词的由来。
循环的另一个特征是开销。每转一圈都要把状态重新给模型看一遍,圈数越多消耗越大、上下文越长。这就是为什么真实系统都有步数上限、成本上限和超时——不是不信任模型,是循环本身需要缰绳。
03四个关键部件FOUR PARTS
模型是决策器,决定每一步做什么。它可以被换掉,Agent 的骨架不变——所以"我们用了 X 模型"从来不是 Agent 项目的核心卖点。
工具是手脚,也是权限清单。给什么工具,它就有什么能力:给了发邮件的工具,它才可能发出邮件。工具列表就是这个 Agent 的权力边界——审查一个 Agent,先看它的工具清单,比看它的提示词更快。
记忆是状态。短期记忆是本次任务的上下文(干完就忘),长期记忆是跨任务的存储(要专门去建)。很多"Agent 记性差"的抱怨,往往是没设计长期记忆,而不是模型健忘。
停止条件最容易被忽略,却最能看出设计者的成熟度:什么时候宣布成功、什么时候认输求助、什么时候强制熔断。一个不会停的 Agent 比一个不会做的 Agent 危险得多。
04常见误区PITFALLS
把"会调工具"当成"能自动完成业务"。第三级和第四级之间隔着循环,第四级和"可上业务"之间还隔着授权、审核、回退和日志。演示视频通常展示的是最顺利的一条路径,业务要求的是最糟糕路径也能兜住。
把 Agent 当成一个产品品类。它是一种架构形态。同一个"客服 Agent",可以是只会检索的第二级,也可以是能开工单退款的第四级——名字一样,风险差着数量级。听到"Agent"先问:它被授权做哪些动作?
把自主当成目标。自主是手段,不是荣誉。循环里没有人,意味着错误也没有人拦。成熟的设计是给循环开口子:低风险步骤放行,高风险动作弹出来等人确认——自主程度应该由后果决定,不是由技术能力决定。
05连回判断TO THE NOTES
这份底稿的每个概念,站内都有对应的正式判断:循环里该不该有人、人卡在哪一步,见 N-001 邮件边界;工具清单即权力边界的展开,见 N-006 边界不清为什么失败;怎么回看循环的每一步,见 N-007 trace 与 replay;整个"谁授权、谁负责"的宏观框架,见 N-011 责任结构的重写。
底稿负责让概念站稳,笔记负责让判断落地。学完这页再读那四篇,会顺畅不少。
06自测清单SELF CHECK
- 能不用"智能"这个词,向别人解释 Agent 和聊天机器人的区别吗?
- 看到一个 Agent 演示,第一反应是问它的工具清单吗?
- 能说出循环的四个步骤,以及它为什么既强又危险吗?
- 能举例说明什么任务该停在第三级、不该上第四级吗?
- 知道"trace"回答的是什么问题吗?