谷歌AntiGravity 2.0深度评测:桌面应用、Go重写CLI与Gemini 3.5 Flash实测

谷歌在I/O 2026推出以多代理工作流为核心的AI开发者工具全平台。
Google I/O 2026上,谷歌发布了AntiGravity 2.0桌面应用、用Go重写的CLI工具、开发者SDK及Gemini 3.5 Flash模型,构建了以多代理工作流为核心的完整AI开发平台。Gemini 3.5 Flash在代理任务和代码基准上表现优异,速度达前沿模型四倍,但深度推理略逊。AntiGravity 2.0支持多智能体并行、多模型切换,实测可自主构建完整应用但仍需打磨。
概述:谷歌重新定义开发者工具生态
在Google I/O 2026大会上,谷歌一口气推出了AntiGravity 2.0桌面应用、全新的CLI工具、开发者SDK以及Gemini 3.5 Flash模型。这不是简单的版本迭代,而是谷歌对整个AI开发者工具链的重新架构——从单一编辑器插件,转向以多代理工作流为核心的完整平台。
**多代理工作流(Multi-Agent Workflow)**是当前AI工程领域的核心范式转变。传统的AI辅助编程依赖单次提示-响应循环,而多代理架构允许多个专门化的AI代理并行运行、相互协作,各自负责不同子任务——例如一个代理负责代码生成,另一个负责测试,第三个负责文档撰写。**代理编排层(Agent Orchestration Layer)**则是协调这些代理的中间件,负责任务分发、状态管理和结果聚合。这一概念源于分布式系统工程,被移植到AI工作流后,使得复杂的长周期任务(如构建完整应用)成为可能。
你可能没注意到,AntiGravity 2.0与之前的VS Code分支项目(AntiGravity Add)完全无关,它是一个独立的桌面应用,界面和操作逻辑更接近Claude Code或Codex客户端。谷歌围绕这款应用构建了四款产品:桌面应用、CLI、SDK和旧版Add编辑器,底层共享同一套Agent Harness框架。这意味着当核心Agent循环得到改进时,所有产品都能同步受益。
Gemini 3.5 Flash模型:速度与智能的平衡点
驱动整个生态的核心模型是Gemini 3.5 Flash。谷歌声称它在几乎所有基准测试中超越了Gemini 3.1 Pro,速度是其他前沿模型的四倍。但需要明确的是,这是Flash(轻量版)而非Pro(旗舰版),Gemini 3.5 Pro预计下月发布。
在大语言模型产品线中,Flash与Pro的差异不仅是参数量的缩减,更涉及训练策略和推理优化的系统性取舍。Flash模型通常采用知识蒸馏(Knowledge Distillation)技术,将大模型的能力压缩至小模型中,同时配合量化(Quantization)和推测解码(Speculative Decoding)等推理加速手段,使吞吐量大幅提升。这解释了为何Gemini 3.5 Flash在智能体任务(需要大量短周期调用)上表现出色,而在需要深度链式推理的人文考试类测试中落后——后者更依赖模型的参数容量和推理深度,而非响应速度。

基准测试亮点
从公布的数据来看,Gemini 3.5 Flash的表现确实令人印象深刻:
- 通用终端编码测试:76.2%,超越Gemini 3.1 Pro的70.3%
- MCP多步工作流基准:83.6%,位居榜首,超越Claude Opus和GPT 5.5
- Finance Agent v2:比Opus和GPT高出57.9%
- 多模态表现:在Chart推理和MMU Pro测试中位居榜首
值得注意的是,MCP(Multi-step Completion Protocol)基准测试是专门评估AI模型在连续多步骤任务中表现的评估框架,与传统的单次问答基准(如MMLU、HumanEval)有本质区别。它模拟真实的代理工作场景:模型需要在多轮交互中维持上下文、调用工具、处理中间结果并最终完成复合目标。Gemini 3.5 Flash在此项测试中以83.6%位居榜首,印证了谷歌针对代理场景进行专项优化的策略——这与其将代理编排层作为核心战略的方向高度吻合。相比之下,传统的代码补全基准(如HumanEval)已无法充分反映AI在实际开发工作流中的真实价值。
短板与不足
但Flash并非全面碾压,其劣势主要体现在深度推理任务上:
- Humanities Last Exam:40.2%,落后于Opus的46.9%和Pro的44.4%
- MMU推理测试:72.1%,明显落后于GPT 4的84.6%
- Swange Pro多功能代码测试:55.1%,落后于Opus和GPT
更客观的评价是:Gemini 3.5 Flash在智能体任务上与前沿模型旗鼓相当,代码能力出色,但深度推理略逊。对于一个主打速度的模型而言,这已经是相当优秀的成绩。
AntiGravity 2.0桌面应用:多代理并行的核心体验
AntiGravity 2.0桌面应用的核心卖点是多智能体并行处理。你可以启动子智能体、安排后台任务,在你做其他事情时它们持续运行。此外还集成了原生语音指令、Google AI Studio、Firebase以及Android工具链。

应用界面布局类似Codex:侧边栏展示项目历史和模型选择器,聊天区域支持在Gemini、Claude和GPT模型之间自由切换。这种多模型支持的设计相当贴心,降低了用户的迁移成本。
实测体验:构建React项目管理应用
在实际测试中,让AntiGravity 2.0构建一个包含任务管理、团队成员、项目状态和看板的React.js项目管理应用。AI代理在后台运行了约20分钟完成任务。

生成的应用采用标准暗色模式,包含项目列表侧边栏、通知顶部栏、个人资料菜单、主面板展示当前项目和近期任务,甚至还有团队动态——这些额外功能都是AI根据宽泛指令自行推断的。成品可用且功能合理,但仍需一两个小时打磨才能达到生产级别。相比一年前的初代Gemini CLI已有明显进步,但尚未达到当前顶级开发环境的水平。
AntiGravity CLI重写:从Node到Go的性能飞跃
AntiGravity CLI是谷歌改动最大的部分。它用Go语言完全重写了旧的Gemini CLI。原版Gemini CLI在GitHub上获得超过10万Star,但其架构是为早期通用编码模式设计的。
将CLI从Node.js重写为Go语言,是一个具有深刻工程意义的决策。 Node.js基于V8引擎和事件循环,启动时需要加载JavaScript运行时,冷启动延迟通常在数百毫秒级别;而Go编译为原生二进制文件,启动时间可压缩至个位数毫秒。对于CLI工具而言,这种差异在频繁调用场景下会被显著放大。此外,Go的静态类型系统和内置并发原语(goroutine/channel)使其天然适合构建需要并发处理多个代理任务的命令行工具。GitHub上众多高性能CLI工具(如kubectl、Hugo、Terraform)均采用Go编写,谷歌此次重写选择Go是业界主流实践的延续。
重写后的CLI运
相关推荐
产品体验Qoder vs Cursor实测对比:同样20美金谁更强?
实测对比Qoder和Cursor两款AI IDE,从Agent自主修复能力、人工沟通次数、架构决策等维度评测。Qoder仅需2次沟通完成任务,Cursor需8次。详细分析两者差异,帮你选择最适合的AI编程工具。
产品体验Cursor云Agent演示:打通软件开发全链路瓶颈
深度解析Cursor云Agent最新Demo,展示如何通过云端虚拟机、自动测试产物和全链路控制平面,系统性消除软件开发生命周期中的人类瓶颈,让Agent自主运行、人按需介入。
产品体验Cursor 3.0深度解析:多Agent并行、Design Mode与Best-of-N模型对比
Cursor 3.0正式发布,从AI辅助编程工具进化为Agent舰队指挥中心。本文详解多智能体并行、Design Mode可视化编辑、Best-of-N多模型择优等核心功能,解读AI编程新范式。