播客频道 | Anthropic官方Agent构建指南：工作流vs智能体选型全解析

最近AI圈有个特别有意思的现象——大家一提到做AI Agent，第一反应就是上框架、搞复杂架构，恨不得把LangChain、Dify全都用上。但Anthropic，就是做Claude那家公司，他们最近发了一篇重磅文章，核心结论特别反直觉：最成功的LLM智能体，反而是用最简单的模式搭出来的。"}, {"speaker": "guest", "text": "对，这篇文章叫《Building effective agents》，我读完之后其实挺感慨的。Anthropic过去一年跟各行业几十个团队合作过，他们发现一个规律——那些真正跑得好的Agent系统，用的都是简单、可组合的模式，而不是什么复杂的全栈框架。你想想，Anthropic本身就是做AI安全出身的，他们对可控性的理解特别深，所以他们的哲学就是：模型行为越复杂，安全和可靠性的挑战就越大。"}, {"speaker": "host", "text": "嗯，这个逻辑确实说得通。不过在聊具体怎么做之前，我觉得有个概念得先厘清。因为现在业界对"智能体"这个词的理解真的是一团糟，有人觉得它得是个能自主思考的电子员工，也有人觉得只要能跑个自动化流程就算。Anthropic是怎么定义的？"}, {"speaker": "guest", "text": "这是这篇文章特别有价值的一个地方。Anthropic提出了一个更大的概念叫"代理式系统"，然后在里面清晰地划分了两种架构——工作流和智能体。你可以这样理解：工作流就像一条流水线，步骤是固定的、预先设计好的，LLM在里面就是个超级函数，被代码调用去完成某个子任务，比如总结文本、提取信息。决策权在代码，不在LLM。"}, {"speaker": "host", "text": "那智能体呢？"}, {"speaker": "guest", "text": "智能体更像一个侦探。你给它一个总目标，但它没有固定剧本，它得自己判断下一步做什么、用哪个工具、任务完成没有。决策权在LLM自己。举个例子，你让AI"先总结一篇新闻，再发布到博客"，流程是固定的，这就是工作流。但如果你说"帮我推广这款新产品"，它得自己决定是写推文、发博客还是先做市场调研——这就是智能体了。"}, {"speaker": "host", "text": "这个区分确实很清晰。其实本质上就是看控制权归属嘛——代码控制还是LLM控制。那搞清楚概念之后，实际做项目的时候怎么选？"}, {"speaker": "guest", "text": "Anthropic给了一个特别实用的建议，我把它叫做技术选型金字塔。核心原则就一句话：始终从最简单的方案开始，只有简单方案确实不够用了，才往上加复杂度。因为代理式系统是有代价的——延迟和成本。一个看似简单的Agent任务可能触发五到十次甚至更多的LLM调用，每次都带着大量上下文，Token消耗是指数级增长的。我算过一个典型场景，经过八轮迭代，总消耗可能达到三到五万Token，成本是单次调用的十到二十倍。"}, {"speaker": "host", "text": "十到二十倍，这个数字还挺吓人的。所以金字塔具体是怎么分层的？"}, {"speaker": "guest", "text": "三层。最底层是优化单一LLM调用，通过RAG检索增强生成加上Few-shot示例，很多时候一个精心设计的Prompt就能搞定。第二层是构建工作流，适合任务流程固定、明确、可预测的场景。第三层才是真正的智能体，只有任务是开放式的、没法预测步骤、需要大规模自主决策时才用。"}, {"speaker": "host", "text": "这个我觉得用个具体例子来说明会更直观。你能不能用一个场景把三层都串起来？"}, {"speaker": "guest", "text": "好，就拿AI翻译来说。场景一，翻译公司内部邮件，让同事看个大意就行，对质量要求不高。这时候单个LLM调用就是最佳选择，一个Prompt搞定，速度快成本低，有小瑕疵也无所谓。场景二，翻译公司官网的产品介绍，任何错误都可能损失客户。这时候就该上工作流了——第一步让LLM扮演专业翻译家全力翻译，第二步再让它扮演母语编辑做审校润色。这种角色分离让每一步更专注，研究表明输出质量能比单次调用提升百分之十五到三十。"}, {"speaker": "host", "text": "嗯，这个角色分离的思路很巧妙，其实就是利用了LLM在不同角色设定下注意力分配的差异。那场景三呢？"}, {"speaker": "guest", "text": "场景三，翻译并发布到全球各地的博客，需要根据当地文化和SEO要求做本地化优化。这个任务复杂到需要自己上网查资料、做判断、选策略，这时候才真正需要一个智能体来自主完成。你看，同样是翻译，需求不同，技术选型就完全不同。"}, {"speaker": "host", "text": "说到这儿，我想聊一个很多开发者都关心的问题——框架到底该不该用？LangChain、Dify、n8n这些工具现在太火了，感觉不用就落伍了似的。"}, {"speaker": "guest", "text": "哈哈，Anthropic对这个问题的态度其实挺明确的，但也很务实。他们不是说框架不能用，而是说你得知道框架的代价——黑箱化。框架封装了太多底层细节，一旦Agent出了问题，调试会极其痛苦。你根本分不清是自己的逻辑错了，还是框架帮你构造的Prompt出了问题。而且框架里那些花里胡哨的功能特别容易诱惑你过度设计。"}, {"speaker": "host", "text": "这个我深有体会。之前看过有人吐槽LangChain，说一个简单的API调用被包装成多层嵌套的类继承结构，调试的时候堆栈信息看得人崩溃。"}, {"speaker": "guest", "text": "对，所以Anthropic给了一个三步避坑指南。第一步，从原生API开始，自己动手调一次LLM API，你才能真正理解Agent底层是怎么回事。说白了，LLM本质就是一个接收文本、输出文本的函数，所有Agent行为——工具调用、记忆管理、多步推理——都是通过Prompt设计和解析逻辑实现的。第二步，把框架当原型工具而不是最终答案，用它快速验证想法可以，但要有意识地理解底层机制。第三步，准备好随时毕业——项目要上生产、追求极致稳定性的时候，就得勇敢地抛弃原型，用学到的底层原理重构核心代码。"}, {"speaker": "host", "text": "这个"毕业"的比喻特别好。其实就是说框架是学习的跳板，不是终点。"}, {"speaker": "guest", "text": "没错。Dify、n8n这类可视化工具也是同理，它们特别适合非技术团队快速搭原型，但当你需要专业级的稳定性和控制力时，还是得回归代码层面。"}, {"speaker": "host", "text": "好，我来帮大家做个总结。Anthropic这篇文章的核心思路其实就四句话：第一，简单优先是黄金原则，复杂不等于强大；第二，用控制权归属来区分工作流和智能体；第三，遵循技术选型金字塔，单次调用、工作流、智能体逐级递进；第四，框架是跳板不是终点。"}, {"speaker": "guest", "text": "嗯，我觉得最值得记住的就是那句话——与其追逐最新最复杂的框架，不如回归第一性原理，从最简单的方案出发，按需递进。能用一个Prompt解决的事儿，就别折腾一个Agent出来。这才是真正的工程智慧。"} ],

Anthropic官方Agent构建指南：工作流vs智能体选型全解析

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报