李博!你最近有没有偷偷在AI Studio里试新模型?
哈哈你怎么知道?我前两天就发现不对劲了,Gemini Flash的输出质量突然变好了,我还以为我记错了。
对对对,我也听好几个开发同事说了。你说谷歌这是搞什么呢?Slug都没换,悄悄给你升级了?
这招其实挺老辣的。Slug不变,开发者不用改一行代码就自动享受升级。但本质上呢,全球开发者都成了谷歌的免费测试团队。
等等,你的意思是,他们在正式发布之前,先用真实用户跑一轮数据?
对,而且还不用承担翻车的舆论风险。你想啊,如果效果不好,他们可以说这只是常规迭代。效果好呢,I/O大会上直接拿出来当成果展示。
这产品节奏管理……我作为产品经理都得说一句,学到了。
但更炸裂的是性能本身。我跟你说,这个Flash模型在LMSys竞技场的盲测里,最近七场对战出现了六次,而且表现相当抢眼。
真的假的?竞技场那可是ELO评分系统啊,用户盲投的,没法刷的吧?
理论上是随机分配,但出现频率这么高,很难说谷歌没有刻意提高曝光率。大厂在竞技场的投放策略本身就是一场博弈。
行,那咱们不扯策略了,说说实测。你到底拿它干了啥?
第一个测试就很离谱——让它生成一个网页版Mac OS系统。
啊?网页版Mac OS?
对,完整的前端界面,Spotlight搜索栏、应用图标、文件展示区,全都有。更绝的是壁纸切换、亮度调节、音量控制这些细节功能,它全给你安排上了。
这……一个Flash级别的模型?不是Pro?
Flash。而且作为对比,DeepSeek V4在同样的任务上直接构建失败。Flash还额外生成了仿Safari浏览器和一个Minecraft复刻版。
好家伙,这要是让我们公司前端看到,怕不是要焦虑了。
你们产品经理就知道用户体验,但我得泼个冷水啊——生成一个'看起来像Mac OS'的界面,和真正构建一个可用的操作系统之间,隔的不是一条河,是一片海洋。
得了吧,快速原型和Demo场景够用就行了,你们研究员总想着搞完美方案。
哈哈行行行,说正事。后面还测了360度产品预览器、React组件、GSAP动画、滚动交互,几乎全部精准完成。
这覆盖面已经是真实前端开发的核心场景了吧?
没错,这说明不是刷榜式优化,是实打实的能力提升。但这里有个残酷的商业逻辑——Flash越强,Pro的付费用户就越有理由降级。谷歌本质上在用左手打右手。
诶但换个角度想,与其让OpenAI和Claude的中端模型抢走市场,不如自己先把价格打下来?
就是这个道理。用Flash的性价比锁住开发者生态,比守着Pro的利润率重要得多。
好,最让我好奇的来了——3D生成和那个蝴蝶骑自行车,到底什么情况?
Three.js的PS5手柄3D模型,我给打了9分。要知道九成模型在这个测试上都会翻车。手柄还支持玫瑰红、银河紫这些配色主题切换,细节拉满。
9分?你平时给分不是特别抠吗?
所以才说离谱啊!还有个70年代电视模拟器,九个频道,实时渲染、着色器、程序化动画全都到位。唯一翻车的是山脉旋转和火车轨迹的物理效果。
物理效果翻车,是因为……
AI在处理连续物理状态变化时,还是缺乏真正的空间推理能力。它生成的是'看起来对'的代码,不是'物理上正确'的模拟。这是根本性的短板。
懂了懂了。那蝴蝶骑自行车呢?光听名字就很离谱。
这个测试看似荒诞,实则极其刁钻。踏板转动带动腿部跟随,车轮前进,身体保持平衡——这是一个多层级的因果链条。训练数据里几乎不可能有蝴蝶骑自行车的代码样本。
所以它能做到,说明它不是简单地检索拼接?
对,它具备了一定的组合泛化能力。这才是真正让我兴奋的点。
我突然想到一个事儿。谷歌如果I/O上同时亮出Pro的性能王座和Flash的性价比王座,这个产品矩阵OpenAI目前是做不到的吧?
嗯,但真正的核武器不是发布时间,是Flash的API定价。如果谷歌敢把价格打到GPT-4o-mini以下,还保持这种质量……
那行业格局真的要变了。
我一直有个观点——AI竞争的终局不是谁最聪明,而是谁能让'足够聪明'变得足够便宜。谷歌Flash的进化,正在把这个终局提前。
这句话我记下了,等I/O开完咱们再来复盘,看看谷歌到底交出什么样的答卷。