播客频道 | Gemini 3.5 Flash实测：又快又便宜，竞技场排名碾压九成模型

李博！你最近有没有偷偷在AI Studio里试新模型？哈哈你怎么知道？我前两天就发现不对劲了，Gemini Flash的输出质量突然变好了，我还以为我记错了。对对对，我也听好几个开发同事说了。你说谷歌这是搞什么呢？Slug都没换，悄悄给你升级了？这招其实挺老辣的。Slug不变，开发者不用改一行代码就自动享受升级。但本质上呢，全球开发者都成了谷歌的免费测试团队。等等，你的意思是，他们在正式发布之前，先用真实用户跑一轮数据？对，而且还不用承担翻车的舆论风险。你想啊，如果效果不好，他们可以说这只是常规迭代。效果好呢，I/O大会上直接拿出来当成果展示。这产品节奏管理……我作为产品经理都得说一句，学到了。但更炸裂的是性能本身。我跟你说，这个Flash模型在LMSys竞技场的盲测里，最近七场对战出现了六次，而且表现相当抢眼。真的假的？竞技场那可是ELO评分系统啊，用户盲投的，没法刷的吧？理论上是随机分配，但出现频率这么高，很难说谷歌没有刻意提高曝光率。大厂在竞技场的投放策略本身就是一场博弈。行，那咱们不扯策略了，说说实测。你到底拿它干了啥？第一个测试就很离谱——让它生成一个网页版Mac OS系统。啊？网页版Mac OS？对，完整的前端界面，Spotlight搜索栏、应用图标、文件展示区，全都有。更绝的是壁纸切换、亮度调节、音量控制这些细节功能，它全给你安排上了。这……一个Flash级别的模型？不是Pro？ Flash。而且作为对比，DeepSeek V4在同样的任务上直接构建失败。Flash还额外生成了仿Safari浏览器和一个Minecraft复刻版。好家伙，这要是让我们公司前端看到，怕不是要焦虑了。你们产品经理就知道用户体验，但我得泼个冷水啊——生成一个'看起来像Mac OS'的界面，和真正构建一个可用的操作系统之间，隔的不是一条河，是一片海洋。得了吧，快速原型和Demo场景够用就行了，你们研究员总想着搞完美方案。哈哈行行行，说正事。后面还测了360度产品预览器、React组件、GSAP动画、滚动交互，几乎全部精准完成。这覆盖面已经是真实前端开发的核心场景了吧？没错，这说明不是刷榜式优化，是实打实的能力提升。但这里有个残酷的商业逻辑——Flash越强，Pro的付费用户就越有理由降级。谷歌本质上在用左手打右手。诶但换个角度想，与其让OpenAI和Claude的中端模型抢走市场，不如自己先把价格打下来？就是这个道理。用Flash的性价比锁住开发者生态，比守着Pro的利润率重要得多。好，最让我好奇的来了——3D生成和那个蝴蝶骑自行车，到底什么情况？ Three.js的PS5手柄3D模型，我给打了9分。要知道九成模型在这个测试上都会翻车。手柄还支持玫瑰红、银河紫这些配色主题切换，细节拉满。 9分？你平时给分不是特别抠吗？所以才说离谱啊！还有个70年代电视模拟器，九个频道，实时渲染、着色器、程序化动画全都到位。唯一翻车的是山脉旋转和火车轨迹的物理效果。物理效果翻车，是因为…… AI在处理连续物理状态变化时，还是缺乏真正的空间推理能力。它生成的是'看起来对'的代码，不是'物理上正确'的模拟。这是根本性的短板。懂了懂了。那蝴蝶骑自行车呢？光听名字就很离谱。这个测试看似荒诞，实则极其刁钻。踏板转动带动腿部跟随，车轮前进，身体保持平衡——这是一个多层级的因果链条。训练数据里几乎不可能有蝴蝶骑自行车的代码样本。所以它能做到，说明它不是简单地检索拼接？对，它具备了一定的组合泛化能力。这才是真正让我兴奋的点。我突然想到一个事儿。谷歌如果I/O上同时亮出Pro的性能王座和Flash的性价比王座，这个产品矩阵OpenAI目前是做不到的吧？嗯，但真正的核武器不是发布时间，是Flash的API定价。如果谷歌敢把价格打到GPT-4o-mini以下，还保持这种质量…… 那行业格局真的要变了。我一直有个观点——AI竞争的终局不是谁最聪明，而是谁能让'足够聪明'变得足够便宜。谷歌Flash的进化，正在把这个终局提前。这句话我记下了，等I/O开完咱们再来复盘，看看谷歌到底交出什么样的答卷。

Gemini 3.5 Flash实测：又快又便宜，竞技场排名碾压九成模型

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报