托管Agent时代来临：Anthropic与Google的两条路线之争

2025年，AI Agent的基础设施正在经历一场深刻变革。Google在Gemini API中推出了托管Agent（Managed Agents），紧随Anthropic之后入局。这标志着一个新的产品品类正在成型——Agent不再只是模型调用，而是一整套托管运行时。如果你还在自己搭建Agent循环来处理长时间运行的任务，是时候关注这个趋势了。

什么是托管Agent？

简单来说，托管Agent是一个由云服务商托管的运行时环境，它替你执行Agent循环。你只需要定义三样东西：模型、系统提示词和工具。然后发送消息，平台帮你处理所有剩下的事情。

而"剩下的事情"恰恰是最耗时的部分。当Agent运行时间从秒级延长到分钟甚至小时级别，你需要面对的挑战呈指数增长：

沙箱环境：为每个会话启动容器，管理文件系统和包管理器
持久化状态：跨工具调用保持状态，管理上下文窗口
故障恢复：处理网络抖动、内存溢出、速率限制等异常
凭证管理：安全地管理OAuth令牌，防止提示注入泄露
容器隔离：确保多租户环境下的安全性

托管Agent的三层架构模型

Anthropic提出了一个非常有用的架构框架，将Agent分解为三个解耦的组件：

大脑（Brain）：模型及其决策循环，无状态设计，可随时重启
双手（Hands）：沙箱和工具，短暂且可丢弃，一个失败就启动新的
会话（Session）：持久化的、仅追加的事件日志，存在于模型上下文窗口之外

这种解耦设计的关键价值在于：如果大脑崩溃，你可以唤醒一个新的大脑，把会话日志交给它，它就能从最后记录的事件继续执行。这对长时间运行的工作负载至关重要。

托管Agent架构对比

为什么托管Agent是一个真正的产品品类？

值得强调的是，这些基础设施工作——容器编排、状态持久化、故障恢复、凭证管理——没有一项是构建Agent的有趣部分。它们全是基础设施。而每家公司都在重复构建同样的管道工程。

这正是为什么云服务商要吸收这些工作。托管Agent之所以成为一个真正的产品品类而非仅仅是一个功能，是因为提供商现在交付的不再只是模型——而是运行时和你在模型之上构建的产品。

以凭证管理为例：如果Agent代表用户执行操作，比如发送Slack消息或读取GitHub仓库，你需要OAuth令牌、令牌刷新机制，还要确保令牌不进入沙箱环境。这类系统要正确构建需要数周，要加固则需要数月。

Agent凭证管理的复杂性

Anthropic vs Google：两种截然不同的托管Agent哲学

两家公司都推出了托管Agent，但实现方式差异巨大，反映了对"托管Agent应该是什么样"的根本分歧。

Anthropic：深度优先的Agent平台

Anthropic的API设计暴露了完整的机制。你需要分别创建Agent、环境、会话，然后向特定会话发送事件——四个资源对应四个不同的端点。

核心优势：

Agent本身是版本化的，可以滚动更新
会话流式返回类型化事件（message、tool_use、status等）
支持中途中断、注入新消息、更新工具或MCP服务器
完整的预构建工具集：Bash、文件操作、Web搜索、MCP支持
Vaults：为每个终端用户管理和刷新凭证
Memory Stores：跨会话持久化，每次写入都有版本记录
Outcomes：给Agent一个评分标准，平台启动独立的评分器来评估工作质量
Dream：异步任务，读取历史会话并将记忆整合为更清晰的存储

Anthropic本质上是在将Agent运行时当作操作系统来构建——虚拟化组件、暴露稳定接口、吸收整个运维层。

Google：简洁优先的Agent方案

Google的方案极其简洁。你只需一个调用：interaction.create，传入Agent ID、输入和环境参数。Agent规划、执行、观察结果、循环，直到完成，然后返回最终输出。

Google企业级Agent平台的隐藏功能

当前状态：

工具集仅包含代码执行、Google搜索、URL获取和文件系统
没有MCP支持、没有自定义函数调用、没有凭证保险库
定制通过Markdown文件而非JSON完成

但这里有个重要细节：Google实际上还有第二个托管Agent产品——Gemini企业级Agent平台。它使用相同的底层引擎，但功能集更接近Anthropic：支持MCP服务器、OAuth认证管理器、Memory Bank、技能注册表，甚至还有Agent间协调框架。不过这个版本目前处于私有预览阶段，Google明确表示不要用于机密数据。

两种哲学的对比

托管Agent的定价陷阱

Anthropic收取标准Token费率加上每个活跃会话8美分。Google在预览期间仅收取Token费率，沙箱计算免费。

表面上Google更便宜，但实际情况更复杂。虽然Flash模型的单Token价格低于Opus，但Gemini 3.5 Flash的单Token价格是上一代Flash的数倍。而Agent循环在单次运行中可能消耗300万到500万Token。Google自己的测试显示，在这个规模下每次交互成本约为5美元。

便宜的单Token价格不等于便宜的单次运行成本。 这是选型时容易被忽视的关键点。

构建者需要警惕的风险

供应商锁定风险

显而易见的锁定是API不兼容——Anthropic的API无法与Gemini互通。但更隐蔽的锁定才是真正会搞垮生产系统的：

这些系统本质上是非确定性的。即使在同一个提供商内部，底层模型也会在你不知情的情况下发生变化——系统提示词被修改、模型被量化以降低成本、安全行为被重新调优。每一次变化都可能改变Agent的行为方式，而且这些变化不会出现在更新日志中。

你发现问题的方式通常是：评估指标开始漂移，或者用户开始投诉。工具调用变差了，推理链变短了，上周还能完成的任务突然开始失败。

合规限制

两个产品都是有状态设计，这意味着它们目前都不符合零数据保留或HIPAA商业伙伴协议的要求。两者都仍处于预览或测试阶段，定价和功能集随时可能变化。

如何选择托管Agent平台？

总结来看，选择取决于你的差异化来源：

如果你的差异化在于Agent如何工作——它使用的工具、携带的凭证、迭代达成目标的方式——Anthropic是目前为此而构建的平台
如果你的差异化在于Agent产出什么，而你想要最简单的路径快速上线——Google是更合适的选择

无论选择哪条路线，都要投资于评估体系，持续跟踪输出质量，不要将对模型行为的假设硬编码到系统的关键部分中。

这个品类正在成为前沿AI提供商交付Agent能力的默认方式。Anthropic先发，Google跟进，AWS和OpenAI也在路上。如果你正在构建任何运行时间超过单次API调用的应用，下一个要回答的问题是：这个Agent循环是你自己运行，还是交给提供商？