Gemini 3.5 Flash实测:又快又便宜,竞技场排名碾压九成模型

Gemini 3.5 Flash实测:又快又便宜,竞技场排名碾压九成模型
当一个"廉价替代品"开始威胁到自家旗舰产品的地位时,你该庆幸的是——这场内卷发生在谷歌自己家里。最近,Gemini 3.5 Flash(或其早期测试版本)悄悄出现在AI Studio和竞技场中,实测表现让人大跌眼镜:一个Flash级别的模型,输出质量居然快要追上Pro了。
下面我把这次实测的完整过程和发现拆开聊聊。
谷歌悄悄换血:Flash模型性能暴涨,逼近Pro版
距离Google I/O 2025大会不到三周,谷歌已经在暗中搞事情了。
AI Studio里的Gemini 1.5 Flash模型被悄然更新——模型的Slug标识没变,但输出质量明显上了一个台阶。多位测试人员反馈,推理能力有飞跃式提升,表现更像Gemini 1.5 Pro而不是原来的Flash。
这招"静默升级"玩得相当老辣。Slug不变意味着开发者不用改一行代码就能享受升级,而谷歌则借此在真实场景中收集反馈数据,还不用承担正式发布后翻车的舆论风险——说白了,全球开发者成了免费的测试团队。
但更值得琢磨的是:Flash逼近Pro的性能说明了什么?要么Pro的护城河没想象中那么深,要么谷歌在模型蒸馏和压缩上取得了质的突破。不管是哪种,对OpenAI和Anthropic来说都不算好消息——如果"便宜货"就能做到八九成的效果,谁还愿意为旗舰版掏钱?
同时,谷歌已经向Vertex AI企业客户发邮件,告知Gemini 1.5 Flash将很快全面开放。
AI竞技场盲测:新版Flash频繁现身,表现抢眼

LMSys Chatbot Arena(AI竞技场)对新旧版Gemini Flash做了对比盲测,新版在场景构建方面表现突出。更有意思的是,竞技场最近七场对战中,有六次出现了新版Gemini 1.5 Flash。
这到底是随机分配,还是谷歌在刻意提高曝光率?大厂在竞技场的模型投放策略本身就是一场博弈。竞技场采用类似国际象棋的ELO评分系统,通过大量用户盲测投票排名,已经成了AI行业的"大众点评"——一个模型在这里的表现,直接影响开发者的选型决策。
谷歌选择在正式发布前就让新模型"参赛",显然是想用社区口碑为I/O大会造势。这是技术实力的自信,也是营销策略的精明。
想体验的话,可以去竞技场的对战模式发送提示词,有一定概率抽到新版Flash模型。
Gemini模型发布节奏推测:三步走策略

根据目前的信息,可以大致推测谷歌的发布节奏:
- Google I/O前:先推出Gemini 3.1 Flash,填补3.0 Flash和3.5 Pro之间的性能断层
- 5月19-20日I/O大会:正式发布Gemini 3.5 Pro,配合基准测试数据全面展示
- 6月中旬至7月初:发布Gemini 3.5 Flash,收割大规模商业化市场
这套"3.1 Flash → 3.5 Pro → 3.5 Flash"的三步走,堪称教科书级的产品节奏管理。先让现有用户立刻感受到提升,再用I/O大会的聚光灯引爆关注,最后用Flash的性价比锁住开发者生态。
不过有个隐忧:版本号通胀正在让用户麻木。从1.0到1.5到2.0到3.0再到3.5,每次都号称"巨大飞跃",用户的期望值已经被拉得很高。如果I/O上的实际演示撑不起这些版本号的承诺,反噬会比不发布更严重。
注意:视频中提到的版本号(3.1、3.5等)可能基于社区泄露信息和推测,谷歌官方实际发布时的命名可能不同,以官方公告为准。
实测一:网页版Mac OS系统生成,完成度惊人

第一个硬核测试:让升级版Gemini Flash开发一个网页版Mac OS系统。
结果相当炸裂。生成了完整的前端界面,包含Spotlight搜索栏、各类应用图标、文件展示区域。更让人意外的是细节功能——壁纸切换、亮度调节、音量控制,这些大多数模型根本做不到的东西,它都给你安排上了。
作为对比,DeepSeek V4在同样的任务上甚至无法完成构建。Flash模型还额外生成了仿Safari浏览器(能显示真实网站内容)和一个Minecraft复刻版,内置笔记、计算器、设置等功能,输出质量已经足以匹敌Gemini 1.5 Pro。
这件事的意义远不止"炫技"。它意味着大量中低复杂度的前端开发工作正在被AI彻底商品化。当然,生成一个"看起来像Mac OS"的界面和真正构建一个可用的操作系统之间,隔着的不是一条河而是一片海洋。但对于快速原型设计、演示Demo这类场景,Flash模型已经足够颠覆工作流了。
实测二:360度产品预览器与前端组件开发
接下来测试了360度产品预览器和一系列前端开发任务。
产品预览器的生成质量非常棒,前端任务中几乎所有组件需求都完成得很好:动态效果、不同模板实现、React组件、GSAP动画(GreenSock Animation Platform,一个高性能JavaScript动画库)、滚动交互——全都生成精准。
前端代码生成质量几乎复刻了3.1版本的同等水平。这就揭示了一个残酷的商业逻辑:Flash越强,Pro的付费用户就越有理由降级。谷歌本质上是在用左手打右手。但换个角度看,与其让OpenAI和Claude用中端模型抢走市场,不如自己先把价格打下来,用Flash的性价比锁住开发者生态。
React组件、GSAP动画、滚动交互这些测试项目覆盖了真实前端开发的核心场景,结果都表现精准,说明这不是刷榜式的优化,而是实打实的能力提升。如果以更低的价格提供这种性能,Flash会成为很多开发者的主力工具。
实测三:Three.js 3D生成能力——PS5手柄拿下9分

3D代码生成是区分AI模型能力上限的"试金石",因为Three.js涉及几何建模、材质系统、光照计算、用户交互等多个维度的综合理解,不是简单的模式匹配能搞定的。
PS5手柄测试:用Three.js生成PS5手柄3D模型,这是目前见过最棒的生成结果之一,可以打9分。要知道,九成模型在这个测试上都会翻车。手柄还支持多种配色主题切换——玫瑰红、银河紫等,细节拉满。
70年代电视模拟器:生成了九个频道,完成度极高。频道内容涵盖城市生活、海上船只、音乐可视化、太阳系模拟、体育赛事、飞鸟动画等。实时渲染、着色器(Shader,运行在GPU上控制像素颜色和光照的小程序)、程序化动画及物理模拟效果都很到位。
唯一的短板出现在山脉旋转和火车运行轨迹的物理效果上——这也暴露了一个根本性问题:AI在处理连续物理状态变化时仍然缺乏真正的空间推理能力。它生成的是"看起来对"的代码,而非"物理上正确"的模拟。
实测四:粒子图形与动画——蝴蝶骑自行车名场面

最后一组测试是粒子系统和动画生成。
蝴蝶粒子效果:生成质量相当出色,模型还自动加上了飞行路径动画。身体特征还原不够准确需要扣分,但对Flash级别的模型来说已经很好了。
蝴蝶骑自行车(没错,就是这么离谱的测试):这是见过最棒的结果之一。腿部随车身联动,踏板转动带动前进——这种测试看似荒诞,实则极其刁钻。它考验的是模型对物理关联性的理解:踏板转动→腿部跟随→车轮前进→身体平衡,是一个多层级的因果链条。
训练数据中几乎不存在"蝴蝶骑自行车"的代码样本,Flash模型能生成这样的结果,说明它在代码生成时具备了一定的组合泛化能力,而不仅仅是检索和拼接已有代码。
写在最后:Flash的进化意味着什么
谷歌在AI领域一直被吐槽"起了个大早赶了个晚集",但这次Flash模型的表现暗示着一个可能的转折点。
如果I/O大会上3.5 Pro的表现能兑现预期,谷歌将同时拥有性能王座(Pro)和性价比王座(Flash),这是OpenAI目前做不到的产品矩阵优势。
真正值得关注的不是发布时间,而是Flash模型的API定价:如果谷歌敢把价格打到GPT-4o-mini以下且保持这种质量,那才是真正改变行业格局的核武器。
AI模型竞争的终局不是谁最聪明,而是谁能让"足够聪明"变得足够便宜——谷歌Flash的进化,正在把这个终局提前。
相关推荐
产品体验Qoder vs Cursor实测对比:同样20美金谁更强?
实测对比Qoder和Cursor两款AI IDE,从Agent自主修复能力、人工沟通次数、架构决策等维度评测。Qoder仅需2次沟通完成任务,Cursor需8次。详细分析两者差异,帮你选择最适合的AI编程工具。
产品体验Cursor云Agent演示:打通软件开发全链路瓶颈
深度解析Cursor云Agent最新Demo,展示如何通过云端虚拟机、自动测试产物和全链路控制平面,系统性消除软件开发生命周期中的人类瓶颈,让Agent自主运行、人按需介入。
产品体验Cursor 3.0深度解析:多Agent并行、Design Mode与Best-of-N模型对比
Cursor 3.0正式发布,从AI辅助编程工具进化为Agent舰队指挥中心。本文详解多智能体并行、Design Mode可视化编辑、Best-of-N多模型择优等核心功能,解读AI编程新范式。