托管Agent时代来临:Anthropic与Google的两条路线之争

2025年,AI Agent的基础设施正在经历一场深刻变革。Google在Gemini API中推出了托管Agent(Managed Agents),紧随Anthropic之后入局。这标志着一个新的产品品类正在成型——Agent不再只是模型调用,而是一整套托管运行时。如果你还在自己搭建Agent循环来处理长时间运行的任务,是时候关注这个趋势了。
什么是托管Agent?
简单来说,托管Agent是一个由云服务商托管的运行时环境,它替你执行Agent循环。你只需要定义三样东西:模型、系统提示词和工具。然后发送消息,平台帮你处理所有剩下的事情。
而"剩下的事情"恰恰是最耗时的部分。当Agent运行时间从秒级延长到分钟甚至小时级别,你需要面对的挑战呈指数增长:
- 沙箱环境:为每个会话启动容器,管理文件系统和包管理器
- 持久化状态:跨工具调用保持状态,管理上下文窗口
- 故障恢复:处理网络抖动、内存溢出、速率限制等异常
- 凭证管理:安全地管理OAuth令牌,防止提示注入泄露
- 容器隔离:确保多租户环境下的安全性
托管Agent的三层架构模型
Anthropic提出了一个非常有用的架构框架,将Agent分解为三个解耦的组件:
- 大脑(Brain):模型及其决策循环,无状态设计,可随时重启
- 双手(Hands):沙箱和工具,短暂且可丢弃,一个失败就启动新的
- 会话(Session):持久化的、仅追加的事件日志,存在于模型上下文窗口之外
这种解耦设计的关键价值在于:如果大脑崩溃,你可以唤醒一个新的大脑,把会话日志交给它,它就能从最后记录的事件继续执行。这对长时间运行的工作负载至关重要。

为什么托管Agent是一个真正的产品品类?
值得强调的是,这些基础设施工作——容器编排、状态持久化、故障恢复、凭证管理——没有一项是构建Agent的有趣部分。它们全是基础设施。而每家公司都在重复构建同样的管道工程。
这正是为什么云服务商要吸收这些工作。托管Agent之所以成为一个真正的产品品类而非仅仅是一个功能,是因为提供商现在交付的不再只是模型——而是运行时和你在模型之上构建的产品。
以凭证管理为例:如果Agent代表用户执行操作,比如发送Slack消息或读取GitHub仓库,你需要OAuth令牌、令牌刷新机制,还要确保令牌不进入沙箱环境。这类系统要正确构建需要数周,要加固则需要数月。

Anthropic vs Google:两种截然不同的托管Agent哲学
两家公司都推出了托管Agent,但实现方式差异巨大,反映了对"托管Agent应该是什么样"的根本分歧。
Anthropic:深度优先的Agent平台
Anthropic的API设计暴露了完整的机制。你需要分别创建Agent、环境、会话,然后向特定会话发送事件——四个资源对应四个不同的端点。
核心优势:
- Agent本身是版本化的,可以滚动更新
- 会话流式返回类型化事件(message、tool_use、status等)
- 支持中途中断、注入新消息、更新工具或MCP服务器
- 完整的预构建工具集:Bash、文件操作、Web搜索、MCP支持
- Vaults:为每个终端用户管理和刷新凭证
- Memory Stores:跨会话持久化,每次写入都有版本记录
- Outcomes:给Agent一个评分标准,平台启动独立的评分器来评估工作质量
- Dream:异步任务,读取历史会话并将记忆整合为更清晰的存储
Anthropic本质上是在将Agent运行时当作操作系统来构建——虚拟化组件、暴露稳定接口、吸收整个运维层。
Google:简洁优先的Agent方案
Google的方案极其简洁。你只需一个调用:interaction.create,传入Agent ID、输入和环境参数。Agent规划、执行、观察结果、循环,直到完成,然后返回最终输出。

当前状态:
- 工具集仅包含代码执行、Google搜索、URL获取和文件系统
- 没有MCP支持、没有自定义函数调用、没有凭证保险库
- 定制通过Markdown文件而非JSON完成
但这里有个重要细节:Google实际上还有第二个托管Agent产品——Gemini企业级Agent平台。它使用相同的底层引擎,但功能集更接近Anthropic:支持MCP服务器、OAuth认证管理器、Memory Bank、技能注册表,甚至还有Agent间协调框架。不过这个版本目前处于私有预览阶段,Google明确表示不要用于机密数据。

托管Agent的定价陷阱
Anthropic收取标准Token费率加上每个活跃会话8美分。Google在预览期间仅收取Token费率,沙箱计算免费。
表面上Google更便宜,但实际情况更复杂。虽然Flash模型的单Token价格低于Opus,但Gemini 3.5 Flash的单Token价格是上一代Flash的数倍。而Agent循环在单次运行中可能消耗300万到500万Token。Google自己的测试显示,在这个规模下每次交互成本约为5美元。
便宜的单Token价格不等于便宜的单次运行成本。 这是选型时容易被忽视的关键点。
构建者需要警惕的风险
供应商锁定风险
显而易见的锁定是API不兼容——Anthropic的API无法与Gemini互通。但更隐蔽的锁定才是真正会搞垮生产系统的:
这些系统本质上是非确定性的。即使在同一个提供商内部,底层模型也会在你不知情的情况下发生变化——系统提示词被修改、模型被量化以降低成本、安全行为被重新调优。每一次变化都可能改变Agent的行为方式,而且这些变化不会出现在更新日志中。
你发现问题的方式通常是:评估指标开始漂移,或者用户开始投诉。工具调用变差了,推理链变短了,上周还能完成的任务突然开始失败。
合规限制
两个产品都是有状态设计,这意味着它们目前都不符合零数据保留或HIPAA商业伙伴协议的要求。两者都仍处于预览或测试阶段,定价和功能集随时可能变化。
如何选择托管Agent平台?
总结来看,选择取决于你的差异化来源:
- 如果你的差异化在于Agent如何工作——它使用的工具、携带的凭证、迭代达成目标的方式——Anthropic是目前为此而构建的平台
- 如果你的差异化在于Agent产出什么,而你想要最简单的路径快速上线——Google是更合适的选择
无论选择哪条路线,都要投资于评估体系,持续跟踪输出质量,不要将对模型行为的假设硬编码到系统的关键部分中。
这个品类正在成为前沿AI提供商交付Agent能力的默认方式。Anthropic先发,Google跟进,AWS和OpenAI也在路上。如果你正在构建任何运行时间超过单次API调用的应用,下一个要回答的问题是:这个Agent循环是你自己运行,还是交给提供商?
相关推荐

Vue3+SpringBoot实战:AI旅游推荐助手全栈项目详解
基于Vue3和Java SpringBoot技术栈,结合AI大模型打造旅游景点智能推荐助手H5应用。涵盖智能行程规划、AI对话交互等核心功能,适合零基础入门全栈+AI开发的实战项目。

Claude Code一周年:从单一Agent到Agent军团的编程革命
Claude Code发布一年,AI编程工作流发生颠覆性变革。从同时运行上千个Agent协作,到Auto Mode取代Plan Mode,再到角色融合让设计师直接提交PR,深度解析Anthropic团队的实战经验与未来展望。

扣子智能体实战:从零搭建AI测试用例生成工作流
详解如何利用扣子(Coze)平台搭建测试用例自动生成智能体,涵盖智能体与大模型的核心区别、工作流编排技巧、模型选择策略、提示词工程要点及实际踩坑经验,助力测试工程师高效落地AI测试。