Gemini 3.5 Flash实测：又快又便宜，竞技场排名碾压九成模型

当一个"廉价替代品"开始威胁到自家旗舰产品的地位时，你该庆幸的是——这场内卷发生在谷歌自己家里。最近，Gemini 3.5 Flash（或其早期测试版本）悄悄出现在AI Studio和竞技场中，实测表现让人大跌眼镜：一个Flash级别的模型，输出质量居然快要追上Pro了。

下面我把这次实测的完整过程和发现拆开聊聊。

谷歌悄悄换血：Flash模型性能暴涨，逼近Pro版

距离Google I/O 2025大会不到三周，谷歌已经在暗中搞事情了。

AI Studio里的Gemini 1.5 Flash模型被悄然更新——模型的Slug标识没变，但输出质量明显上了一个台阶。多位测试人员反馈，推理能力有飞跃式提升，表现更像Gemini 1.5 Pro而不是原来的Flash。

这招"静默升级"玩得相当老辣。Slug不变意味着开发者不用改一行代码就能享受升级，而谷歌则借此在真实场景中收集反馈数据，还不用承担正式发布后翻车的舆论风险——说白了，全球开发者成了免费的测试团队。

但更值得琢磨的是：Flash逼近Pro的性能说明了什么？要么Pro的护城河没想象中那么深，要么谷歌在模型蒸馏和压缩上取得了质的突破。不管是哪种，对OpenAI和Anthropic来说都不算好消息——如果"便宜货"就能做到八九成的效果，谁还愿意为旗舰版掏钱？

同时，谷歌已经向Vertex AI企业客户发邮件，告知Gemini 1.5 Flash将很快全面开放。

AI竞技场盲测：新版Flash频繁现身，表现抢眼

AI竞技场对比测试截图

LMSys Chatbot Arena（AI竞技场）对新旧版Gemini Flash做了对比盲测，新版在场景构建方面表现突出。更有意思的是，竞技场最近七场对战中，有六次出现了新版Gemini 1.5 Flash。

这到底是随机分配，还是谷歌在刻意提高曝光率？大厂在竞技场的模型投放策略本身就是一场博弈。竞技场采用类似国际象棋的ELO评分系统，通过大量用户盲测投票排名，已经成了AI行业的"大众点评"——一个模型在这里的表现，直接影响开发者的选型决策。

谷歌选择在正式发布前就让新模型"参赛"，显然是想用社区口碑为I/O大会造势。这是技术实力的自信，也是营销策略的精明。

想体验的话，可以去竞技场的对战模式发送提示词，有一定概率抽到新版Flash模型。

Gemini模型发布节奏推测：三步走策略

Gemini模型发布策略分析

根据目前的信息，可以大致推测谷歌的发布节奏：

Google I/O前：先推出Gemini 3.1 Flash，填补3.0 Flash和3.5 Pro之间的性能断层
5月19-20日I/O大会：正式发布Gemini 3.5 Pro，配合基准测试数据全面展示
6月中旬至7月初：发布Gemini 3.5 Flash，收割大规模商业化市场

这套"3.1 Flash → 3.5 Pro → 3.5 Flash"的三步走，堪称教科书级的产品节奏管理。先让现有用户立刻感受到提升，再用I/O大会的聚光灯引爆关注，最后用Flash的性价比锁住开发者生态。

不过有个隐忧：版本号通胀正在让用户麻木。从1.0到1.5到2.0到3.0再到3.5，每次都号称"巨大飞跃"，用户的期望值已经被拉得很高。如果I/O上的实际演示撑不起这些版本号的承诺，反噬会比不发布更严重。

注意：视频中提到的版本号（3.1、3.5等）可能基于社区泄露信息和推测，谷歌官方实际发布时的命名可能不同，以官方公告为准。

实测一：网页版Mac OS系统生成，完成度惊人

网页版Mac OS系统生成效果

第一个硬核测试：让升级版Gemini Flash开发一个网页版Mac OS系统。

结果相当炸裂。生成了完整的前端界面，包含Spotlight搜索栏、各类应用图标、文件展示区域。更让人意外的是细节功能——壁纸切换、亮度调节、音量控制，这些大多数模型根本做不到的东西，它都给你安排上了。

作为对比，DeepSeek V4在同样的任务上甚至无法完成构建。Flash模型还额外生成了仿Safari浏览器（能显示真实网站内容）和一个Minecraft复刻版，内置笔记、计算器、设置等功能，输出质量已经足以匹敌Gemini 1.5 Pro。

这件事的意义远不止"炫技"。它意味着大量中低复杂度的前端开发工作正在被AI彻底商品化。当然，生成一个"看起来像Mac OS"的界面和真正构建一个可用的操作系统之间，隔着的不是一条河而是一片海洋。但对于快速原型设计、演示Demo这类场景，Flash模型已经足够颠覆工作流了。

实测二：360度产品预览器与前端组件开发

接下来测试了360度产品预览器和一系列前端开发任务。

产品预览器的生成质量非常棒，前端任务中几乎所有组件需求都完成得很好：动态效果、不同模板实现、React组件、GSAP动画（GreenSock Animation Platform，一个高性能JavaScript动画库）、滚动交互——全都生成精准。

前端代码生成质量几乎复刻了3.1版本的同等水平。这就揭示了一个残酷的商业逻辑：Flash越强，Pro的付费用户就越有理由降级。谷歌本质上是在用左手打右手。但换个角度看，与其让OpenAI和Claude用中端模型抢走市场，不如自己先把价格打下来，用Flash的性价比锁住开发者生态。

React组件、GSAP动画、滚动交互这些测试项目覆盖了真实前端开发的核心场景，结果都表现精准，说明这不是刷榜式的优化，而是实打实的能力提升。如果以更低的价格提供这种性能，Flash会成为很多开发者的主力工具。

实测三：Three.js 3D生成能力——PS5手柄拿下9分

Three.js生成的3D效果展示

3D代码生成是区分AI模型能力上限的"试金石"，因为Three.js涉及几何建模、材质系统、光照计算、用户交互等多个维度的综合理解，不是简单的模式匹配能搞定的。

PS5手柄测试：用Three.js生成PS5手柄3D模型，这是目前见过最棒的生成结果之一，可以打9分。要知道，九成模型在这个测试上都会翻车。手柄还支持多种配色主题切换——玫瑰红、银河紫等，细节拉满。

70年代电视模拟器：生成了九个频道，完成度极高。频道内容涵盖城市生活、海上船只、音乐可视化、太阳系模拟、体育赛事、飞鸟动画等。实时渲染、着色器（Shader，运行在GPU上控制像素颜色和光照的小程序）、程序化动画及物理模拟效果都很到位。

唯一的短板出现在山脉旋转和火车运行轨迹的物理效果上——这也暴露了一个根本性问题：AI在处理连续物理状态变化时仍然缺乏真正的空间推理能力。它生成的是"看起来对"的代码，而非"物理上正确"的模拟。

实测四：粒子图形与动画——蝴蝶骑自行车名场面

粒子动画生成效果

最后一组测试是粒子系统和动画生成。

蝴蝶粒子效果：生成质量相当出色，模型还自动加上了飞行路径动画。身体特征还原不够准确需要扣分，但对Flash级别的模型来说已经很好了。

蝴蝶骑自行车（没错，就是这么离谱的测试）：这是见过最棒的结果之一。腿部随车身联动，踏板转动带动前进——这种测试看似荒诞，实则极其刁钻。它考验的是模型对物理关联性的理解：踏板转动→腿部跟随→车轮前进→身体平衡，是一个多层级的因果链条。

训练数据中几乎不存在"蝴蝶骑自行车"的代码样本，Flash模型能生成这样的结果，说明它在代码生成时具备了一定的组合泛化能力，而不仅仅是检索和拼接已有代码。

写在最后：Flash的进化意味着什么

谷歌在AI领域一直被吐槽"起了个大早赶了个晚集"，但这次Flash模型的表现暗示着一个可能的转折点。

如果I/O大会上3.5 Pro的表现能兑现预期，谷歌将同时拥有性能王座（Pro）和性价比王座（Flash），这是OpenAI目前做不到的产品矩阵优势。

真正值得关注的不是发布时间，而是Flash模型的API定价：如果谷歌敢把价格打到GPT-4o-mini以下且保持这种质量，那才是真正改变行业格局的核武器。

AI模型竞争的终局不是谁最聪明，而是谁能让"足够聪明"变得足够便宜——谷歌Flash的进化，正在把这个终局提前。

Gemini 3.5 Flash实测：又快又便宜，竞技场排名碾压九成模型

Gemini 3.5 Flash实测：又快又便宜，竞技场排名碾压九成模型

谷歌悄悄换血：Flash模型性能暴涨，逼近Pro版

AI竞技场盲测：新版Flash频繁现身，表现抢眼

Gemini模型发布节奏推测：三步走策略

实测一：网页版Mac OS系统生成，完成度惊人

实测二：360度产品预览器与前端组件开发

实测三：Three.js 3D生成能力——PS5手柄拿下9分

实测四：粒子图形与动画——蝴蝶骑自行车名场面

写在最后：Flash的进化意味着什么

相关推荐

Qoder vs Cursor实测对比：同样20美金谁更强？

Cursor云Agent演示：打通软件开发全链路瓶颈

Cursor 3.0深度解析：多Agent并行、Design Mode与Best-of-N模型对比