谷歌AntiGravity 2.0深度评测：桌面应用、Go重写CLI与Gemini 3.5 Flash实测

概述：谷歌重新定义开发者工具生态

在Google I/O 2026大会上，谷歌一口气推出了AntiGravity 2.0桌面应用、全新的CLI工具、开发者SDK以及Gemini 3.5 Flash模型。这不是简单的版本迭代，而是谷歌对整个AI开发者工具链的重新架构——从单一编辑器插件，转向以多代理工作流为核心的完整平台。

**多代理工作流（Multi-Agent Workflow）**是当前AI工程领域的核心范式转变。传统的AI辅助编程依赖单次提示-响应循环，而多代理架构允许多个专门化的AI代理并行运行、相互协作，各自负责不同子任务——例如一个代理负责代码生成，另一个负责测试，第三个负责文档撰写。**代理编排层（Agent Orchestration Layer）**则是协调这些代理的中间件，负责任务分发、状态管理和结果聚合。这一概念源于分布式系统工程，被移植到AI工作流后，使得复杂的长周期任务（如构建完整应用）成为可能。

你可能没注意到，AntiGravity 2.0与之前的VS Code分支项目（AntiGravity Add）完全无关，它是一个独立的桌面应用，界面和操作逻辑更接近Claude Code或Codex客户端。谷歌围绕这款应用构建了四款产品：桌面应用、CLI、SDK和旧版Add编辑器，底层共享同一套Agent Harness框架。这意味着当核心Agent循环得到改进时，所有产品都能同步受益。

Gemini 3.5 Flash模型：速度与智能的平衡点

驱动整个生态的核心模型是Gemini 3.5 Flash。谷歌声称它在几乎所有基准测试中超越了Gemini 3.1 Pro，速度是其他前沿模型的四倍。但需要明确的是，这是Flash（轻量版）而非Pro（旗舰版），Gemini 3.5 Pro预计下月发布。

在大语言模型产品线中，Flash与Pro的差异不仅是参数量的缩减，更涉及训练策略和推理优化的系统性取舍。Flash模型通常采用知识蒸馏（Knowledge Distillation）技术，将大模型的能力压缩至小模型中，同时配合量化（Quantization）和推测解码（Speculative Decoding）等推理加速手段，使吞吐量大幅提升。这解释了为何Gemini 3.5 Flash在智能体任务（需要大量短周期调用）上表现出色，而在需要深度链式推理的人文考试类测试中落后——后者更依赖模型的参数容量和推理深度，而非响应速度。

看看Google公布的实际基准测试数据

基准测试亮点

从公布的数据来看，Gemini 3.5 Flash的表现确实令人印象深刻：

通用终端编码测试：76.2%，超越Gemini 3.1 Pro的70.3%
MCP多步工作流基准：83.6%，位居榜首，超越Claude Opus和GPT 5.5
Finance Agent v2：比Opus和GPT高出57.9%
多模态表现：在Chart推理和MMU Pro测试中位居榜首

值得注意的是，MCP（Multi-step Completion Protocol）基准测试是专门评估AI模型在连续多步骤任务中表现的评估框架，与传统的单次问答基准（如MMLU、HumanEval）有本质区别。它模拟真实的代理工作场景：模型需要在多轮交互中维持上下文、调用工具、处理中间结果并最终完成复合目标。Gemini 3.5 Flash在此项测试中以83.6%位居榜首，印证了谷歌针对代理场景进行专项优化的策略——这与其将代理编排层作为核心战略的方向高度吻合。相比之下，传统的代码补全基准（如HumanEval）已无法充分反映AI在实际开发工作流中的真实价值。

短板与不足

但Flash并非全面碾压，其劣势主要体现在深度推理任务上：

Humanities Last Exam：40.2%，落后于Opus的46.9%和Pro的44.4%
MMU推理测试：72.1%，明显落后于GPT 4的84.6%
Swange Pro多功能代码测试：55.1%，落后于Opus和GPT

更客观的评价是：Gemini 3.5 Flash在智能体任务上与前沿模型旗鼓相当，代码能力出色，但深度推理略逊。对于一个主打速度的模型而言，这已经是相当优秀的成绩。

AntiGravity 2.0桌面应用：多代理并行的核心体验

AntiGravity 2.0桌面应用的核心卖点是多智能体并行处理。你可以启动子智能体、安排后台任务，在你做其他事情时它们持续运行。此外还集成了原生语音指令、Google AI Studio、Firebase以及Android工具链。

经常使用Google全家桶

应用界面布局类似Codex：侧边栏展示项目历史和模型选择器，聊天区域支持在Gemini、Claude和GPT模型之间自由切换。这种多模型支持的设计相当贴心，降低了用户的迁移成本。

实测体验：构建React项目管理应用

在实际测试中，让AntiGravity 2.0构建一个包含任务管理、团队成员、项目状态和看板的React.js项目管理应用。AI代理在后台运行了约20分钟完成任务。

顶部栏显示通知

生成的应用采用标准暗色模式，包含项目列表侧边栏、通知顶部栏、个人资料菜单、主面板展示当前项目和近期任务，甚至还有团队动态——这些额外功能都是AI根据宽泛指令自行推断的。成品可用且功能合理，但仍需一两个小时打磨才能达到生产级别。相比一年前的初代Gemini CLI已有明显进步，但尚未达到当前顶级开发环境的水平。

AntiGravity CLI重写：从Node到Go的性能飞跃

AntiGravity CLI是谷歌改动最大的部分。它用Go语言完全重写了旧的Gemini CLI。原版Gemini CLI在GitHub上获得超过10万Star，但其架构是为早期通用编码模式设计的。

将CLI从Node.js重写为Go语言，是一个具有深刻工程意义的决策。 Node.js基于V8引擎和事件循环，启动时需要加载JavaScript运行时，冷启动延迟通常在数百毫秒级别；而Go编译为原生二进制文件，启动时间可压缩至个位数毫秒。对于CLI工具而言，这种差异在频繁调用场景下会被显著放大。此外，Go的静态类型系统和内置并发原语（goroutine/channel）使其天然适合构建需要并发处理多个代理任务的命令行工具。GitHub上众多高性能CLI工具（如kubectl、Hugo、Terraform）均采用Go编写，谷歌此次重写选择Go是业界主流实践的延续。

重写后的CLI运

谷歌AntiGravity 2.0深度评测：桌面应用、Go重写CLI与Gemini 3.5 Flash实测

概述：谷歌重新定义开发者工具生态

Gemini 3.5 Flash模型：速度与智能的平衡点

基准测试亮点

短板与不足

AntiGravity 2.0桌面应用：多代理并行的核心体验

实测体验：构建React项目管理应用

AntiGravity CLI重写：从Node到Go的性能飞跃

相关推荐

Qoder vs Cursor实测对比：同样20美金谁更强？

Cursor云Agent演示：打通软件开发全链路瓶颈

Cursor 3.0深度解析：多Agent并行、Design Mode与Best-of-N模型对比