Anthropic官方解析：构建AI Agent的三大核心组件

概述

在Anthropic开发者大会上，产品经理Brad Abrams深入解析了构建下一代AI Agent的核心架构。他将整个体系归纳为三大支柱：Build（构建）、Connect（连接） 和 Optimize（优化），并通过多个现场演示展示了这些组件如何协同工作，让开发者能够以极简的API调用构建出功能强大的智能代理。

这次分享的核心理念是：无论模型多么智能，它的表现取决于你能为它提供多少数据和工具。Anthropic正在构建一套高度可组合的组件系统，让开发者把精力集中在业务逻辑上，而非底层基础设施。

And what publicly traded companies

We don't quite have the SONNET 4 scores up,

project like Asana has a complicated API structure.

Build：代码执行工具——让Claude自己写代码并运行

为什么AI Agent需要代码执行能力？

尽管大语言模型能完成许多惊人的任务，但某些场景仍然需要传统的代码执行能力。Brad举了几个典型例子：

高级数据分析：处理大型电子表格，进行深度统计分析
可审计性需求：代码是可重复、可验证的
精确计算：数学运算、质数计算等需要确定性结果的任务

这里涉及一个AI领域的基本认知：大语言模型本质上是概率性的文本生成系统，它通过预测下一个token来产生输出。这意味着对于需要确定性结果的任务（如精确的数学计算、数据聚合统计），模型的"推理"可能产生近似但不精确的结果。例如，让LLM直接计算大数乘法时，它实际上是在"模拟"计算过程而非真正执行算术运算，错误率会随数字位数增加而显著上升。代码执行工具从根本上解决了这一问题——让模型负责"思考怎么做"，让计算机负责"精确地做"。

Anthropic的思路很直接：既然Claude本身就擅长写代码，为什么不给它一台计算机，让它自己编写并执行代码？

代码执行工具的工作原理

代码执行工具的架构设计相当优雅：

客户端发送请求到Claude，附带代码执行工具的声明
Claude分析问题后决定是否需要写代码
如果需要，Claude编写Python代码并发送到专属容器
容器执行代码，返回标准输出、标准错误和生成的文件
Claude对执行结果进行推理，生成最终回答

这里的容器化设计值得深入理解。Anthropic采用的容器化代码执行方案基于现代云原生技术栈。容器（Container）是一种轻量级虚拟化技术，通过Linux内核的namespace和cgroup机制实现进程隔离，相比传统虚拟机启动更快、资源开销更小。每个组织拥有专属隔离容器意味着代码执行环境之间互不干扰，既保证了安全性（防止恶意代码影响其他用户），也确保了资源的可预测性。这种设计类似于AWS Lambda的无服务器架构理念，但针对AI Agent的长时间交互式计算场景做了优化——容器可以保持状态，支持多轮代码执行之间的数据持久化。

每个组织都有专属的隔离容器，开发者可以完全控制容器的分配策略。设置极其简单——只需在现有的Messages API中添加一个tools块即可。

实战演示：A/B测试分析

Brad在现场用Opus 4进行了演示。最令人印象深刻的是A/B测试分析场景：模型首先分析上传的电子表格结构，然后编写深度分析代码，甚至在第一次分析不够满意时，会主动编写额外的代码进行更深入的挖掘，最终给出带有数据支撑的商业建议。

这种"不满意就再试一次"的行为模式在AI研究中被称为"自我反思"（Self-Reflection），是高级Agent区别于简单工具调用的关键特征。模型不仅能执行任务，还能评估自己的输出质量，并在必要时采取纠正行动。这种能力的实现通常依赖于模型在训练过程中接触大量的代码调试和迭代优化的数据模式。

Shopify已经在其商家助手中集成了这一工具，用于帮助商家进行A/B测试分析。目前每个开发者可获得50小时免费容器时间。

Connect：数据连接层——打通AI Agent与外部世界

Web Search：智能体式网络搜索

模型的训练数据有时间截止点（即Knowledge Cutoff），但许多应用场景需要实时信息——金融数据、法律判例、最新API文档等。Web Search工具解决的正是这个问题。

与传统搜索不同，Claude的搜索是智能体式搜索（Agentic Search）：

模型不是简单地将用户问题转化为搜索查询
而是先推理整体任务，决定搜索策略
自主决定搜索几次、搜索什么、何时停止
每次搜索后评估结果，决定是否需要深入挖掘
最终生成带有完整引用和脚注的报告

这种方法与传统的检索增强生成（RAG）有本质区别。传统RAG通常采用固定的检索-生成两阶段流水线：先将用户查询转化为向量检索请求，从知识库中提取相关文档片段，再将这些片段作为上下文注入提示词。这种方式的局限在于检索策略是静态的，无法根据中间结果动态调整。而智能体式搜索本质上是将搜索过程建模为一个多步决策问题——模型在每一步都能评估已获取信息的充分性，决定是否需要换一个角度重新搜索，或者深入某个特定方向。这种方法借鉴了强化学习中的探索-利用权衡（Exploration-Exploitation Tradeoff）思想，让信息检索从被动响应变为主动探索。

这一切都在一次API调用中完成。开发者还可以限制搜索域名（比如客服场景只搜索官方文档）和最大搜索轮次。

Quora已经在其消费者代理中使用了这一功能，因为用户经常询问时事相关的问题。

MCP Connector：连接远程MCP服务器的游戏规则改变者

MCP（Model Context Protocol）生态系统正在爆发式增长。MCP是Anthropic于2024年底开源的一套标准化协议，旨在解决AI模型与外部数据源和工具之间的互操作性问题。在MCP出现之前，每个AI应用都需要为每个外部服务编写定制化的集成代码，形成M×N的复杂度问题（M个AI应用对接N个外部服务）。MCP通过定义统一的通信协议（基于JSON-RPC 2.0），将这一复杂度降低为M+N——任何支持MCP的模型都能调用任何MCP服务器暴露的工具。远程MCP服务器通过OAuth 2.0进行身份验证，支持Server-Sent Events（SSE）进行流式通信。截至2025年中，GitHub、Slack、Google Drive、Stripe等数百个服务已提供官方MCP服务器实现。

MCP Connector让开发者能在自己的Agent中直接调用远程MCP服务器，这是一个真正的游戏规则改变者。

Brad展示了一个复杂的多工具协作场景：

"根据我的Asana项目状态，创建一封带有创意激励图片的邮件，发送给团队。"

这个看似简单的请求，Claude需要：

调用Asana MCP → 获取工作区、搜索项目、获取任务列表
调用图片生成MCP（通过Cloudflare托管的远程MCP）→ 生成激励图片
调用Zapier MCP → 组合所有数据，发送格式化邮件

整个过程中，Claude展现了强大的长程规划能力，能够自主导航复杂的企业API结构（如Asana的多层级API），无需人工干预。

这种长程规划能力涉及AI研究中的多个前沿方向。传统LLM的自回归生成方式天然倾向于局部最优决策，而非全局规划。实现有效的长程规划通常需要：任务分解能力（将复杂目标拆分为可管理的子任务）、状态追踪（在多步执行过程中维护对当前进度和剩余任务的认知）、以及错误恢复（当某一步失败时能够回溯或采用替代方案）。Anthropic可能通过扩展思维链（Extended Thinking）、针对工具调用场景的强化学习训练以及更长的上下文窗口来增强这些能力。

设置同样极其简单：在Messages API中添加mcp_servers属性，列出MCP服务器的URL、名称和OAuth令牌即可。目前已有Asana、Zapier、Cloudflare等多个远程MCP可用。

终极演示：四工具协作的完整Agent工作流

最精彩的演示将所有组件串联在一起：

"创建一封邮件，包含创意激励图片、Asana项目状态分析（含完成百分比）、相关网络新闻，发送给团队。"

Claude在一次调用中依次使用了：Asana MCP获取任务 → 代码执行工具计算完成率 → Web Search搜索相关新闻 → 图片生成MCP创建配图 → Zapier MCP发送邮件。整个流程全自动完成，最终团队收到了一封格式精美的HTML邮件。

这个演示的技术含义远超表面所见。它展示了一种"工具组合爆炸"的可能性——当N个工具可以自由组合时，Agent能够处理的任务空间呈指数级增长。这也是为什么Anthropic选择了高度可组合的API设计：每个工具都是独立的原子能力，但组合在一起时能涌现出远超单个工具的复杂行为。这种设计哲学与Unix的"小工具、大组合"理念一脉相承。

Optimize：AI Agent性能优化策略

Prompt Caching（提示缓存）

提示缓存允许复用频繁使用的提示片段，节省成本和延迟。其核心原理是利用Transformer架构中的KV Cache（键值缓存）机制。在注意力计算中，每次推理都需要计算Key和Value矩阵，这是计算成本最高的部分之一。当多次请求共享相同的提示前缀时（如系统提示、Few-shot示例或长文档），缓存这些前缀对应的KV状态可以避免重复计算，从而显著降低延迟和成本。

此次更新：

原有5分钟缓存窗口
新增1小时缓存选项，同样享受90%的缓存命中折扣
适用于长时间运行的Agent或人类用户离开后返回的场景

90%的缓存命中折扣反映了实际节省的计算资源——缓存命中时只需计算新增token的注意力，而非整个序列。从1小时缓存窗口的设计来看，Anthropic可能采用了分布式缓存系统（如基于一致性哈希的分布式内存存储），在GPU显存占用和用户成本之间取得平衡。

Batch Processing（批处理）

批处理现在支持Web Search、代码执行和MCP Connector，这意味着它不再只是传统的批处理工具，而是一个异步智能体API：

50%的价格折扣
适合构建异步Agent工作流

传统批处理（Batch Processing）在机器学习领域通常指将多个推理请求打包处理以提高GPU利用率。但Anthropic将其升级为"异步智能体API"的定位意味着更深层的架构变化：每个批处理任务本身可以是一个完整的多步Agent执行流程（包含搜索、代码执行、MCP调用），只是不要求实时返回结果。这对于后台数据处理、定时报告生成、大规模内容审核等场景极为适用，开发者可以提交数千个复杂的Agent任务，系统在负载较低时自动执行并返回结果。

Priority Tier（优先级层）

为需要高可靠性的企业客户提供：

按月购买专属容量
99%可用性保证
长期承诺享受折扣

这种分层服务模式借鉴了云计算行业成熟的容量预留机制（类似AWS的Reserved Instances）。对于将AI Agent部署在关键业务流程中的企业而言，API的可用性直接影响业务连续性。99%的可用性保证意味着每月最多约7.2小时的不可用时间，这对于大多数企业应用场景已经足够，同时也为Anthropic在基础设施规划上提供了可预测的负载基线。

总结：从工具调用到自主决策的AI Agent进化

Anthropic这次发布的组件体系展现了一个清晰的产品哲学：极简API，最大能力。无论是代码执行、网络搜索还是MCP连接，都是通过在现有Messages API上添加一个属性来实现的。这种高度可组合的设计让开发者能够像搭积木一样构建复杂的Agent系统。

更值得关注的是Claude在长程规划方面的能力提升。从演示中可以看到，模型能够自主分解复杂任务、选择合适的工具、处理多步骤依赖关系，甚至在结果不满意时主动进行更深入的探索。这标志着AI Agent正在从"工具调用"阶段迈向真正的"自主决策"阶段。

从行业发展的角度来看，这一演进路径与AI Agent研究的学术脉络高度一致。早期的工具增强型LLM（如Toolformer、ReAct框架）主要解决的是"模型如何知道何时调用工具"的问题；而当前阶段的核心挑战已经转向"模型如何在复杂环境中进行多步规划和自适应决策"。Anthropic通过将工具调用、执行反馈和规划推理统一在一个API框架内，实质上是在构建一个通用的Agent运行时（Agent Runtime），为下一代自主AI系统奠定基础设施层面的基础。