哎李博,你最近有没有刷LM Arena?我前两天测Gemini Flash的时候感觉不太对劲。
哈哈你也发现了?我还以为就我们圈子里在讨论这事儿。
就是嘛!我拿同样的prompt去跑,出来的东西质量跟之前完全不是一个档次。我一度以为是我记忆出了问题。
不是你的问题,是Google在搞事情。他们把model slug保持不变,但背后的模型悄悄换了一个强得多的版本。
等等,slug没变但模型换了?这不就是挂羊头卖……呃,卖更好的肉?
对,而且你知道最骚的操作是什么吗?有人在Battle Mode里做了七次随机匹配,六次都抽到了新版本。推理质量直接接近Gemini 3.1 Pro的水平。
Flash的价格,Pro的表现,你说炸不炸裂?
真的假的?!那这到底是3.1 Flash还是3.5 Flash的早期版本啊?
目前没人能确定。但Google已经给Vertex AI的企业客户发了邮件,说Gemini 3.1 Flash Light即将上线。所以大概率是3.1 Flash的某个变体。
我跟你说,从产品经理的角度看,这招太狠了。保留同一个API端点,拿LM Arena的盲测机制做免费的大规模A/B测试。社区自己发现惊喜,传播效果比开发布会强十倍。
嗯,但这里面有个挺危险的问题。
你说。
你今天调好的prompt,明天后端静默升级,输出可能完全变了。对企业级应用来说,模型一致性是生命线。你们做产品的应该最懂这个吧?
别说了,我们之前就吃过这个亏。上游模型一换版本,下游整个pipeline全崩。不过话说回来,Google这次的发布节奏确实有点意思。
对,我给你捋一下。I/O之前先放3.1 Flash做过渡,5月19到20号主会场发3.5 Pro,然后六七月份3.5 Flash跟进收割市场。三段式发布,节奏感很强。
这跟之前Bard那个尴尬首秀比,简直判若两人。Google终于学会控节奏了?
哈哈,被打脸打多了总会长记性的嘛。
行,说正事。我看到有人拿它做了个浏览器版的macOS,你看了没?
看了看了!Spotlight搜索、Finder、Safari、终端、计算器全有,甚至还内嵌了一个Minecraft克隆游戏。换壁纸、调亮度这些细节功能都能跑。
最狠的是DeepSeek V4在同样任务上直接翻车了。
对,这个对比相当致命。而且你注意啊,React组件、GSAP动画、滚动交互这些更细致的前端任务,Flash的表现跟3.1 Pro基本持平。
那如果Flash能以远低于Pro的价格输出同等质量的代码,整个AI编程工具的定价体系不就得重写?
你们产品经理就知道想商业模式。
得了吧,你不也在算性价比嘛!
哈哈行行行。不过我得泼个冷水——这种一次性demo观赏性大于实用性。真正的前端开发是持续迭代,AI生成的代码在第一版惊艳和第十次修改崩溃之间,往往就隔着几个需求变更。
嗯,这个我同意。那3D图形生成呢?我听说90%的模型在Three.js测试里都翻车了。
这个是真的厉害。PS5手柄的3D生成拿了9分满分10分,是同类测试里最好的之一。但更惊人的是那个1970年代电视模拟器。
那个我看了!九个频道!
对,城市生活、海上船只、音乐可视化、太阳系模拟、乒乓球游戏、分形树、鸟群模拟。每个频道都用到实时渲染、Shader、程序化动画和物理模拟。这基本上是要求模型同时当3D美术、图形程序员和创意总监。
等会儿,那它有短板吗?不可能全是满分吧。
有,山地地形生成就翻车了。视觉效果还行,但导航和物理交互完全不对劲。这其实暴露了语言模型的根本性局限——它擅长生成看起来对的东西,但物理模拟和空间推理还是不行。
就是说它会画画但不懂物理。
精辟,就是这个意思。
诶对了,还有个SVG测试让我印象特别深——那个鹈鹕骑自行车的。
我跟你说,那个被评为作者见过的最佳SVG生成之一。鹈鹕的腿能随着踏板同步摆动,这意味着模型同时理解了鹈鹕的身体结构、自行车的机械运动学,还有两者之间的动态耦合关系。全部用纯数学坐标和路径命令表达出来。
关键这是Flash级别的模型啊。以后生成个SVG图标根本不需要付Pro的钱了。这对设计师和前端来说太实际了。
嗯,所以你看Google这次传递的信号很明确——AI竞争已经从谁最强,转向了谁能在最低成本下做到足够强。
这对OpenAI的GPT-4o、Anthropic的Claude Sonnet压力都很大吧?
巨大。包括DeepSeek的性价比路线也会受冲击。Google这种降维打击式的定价策略,本质上是在说:你们卷性能,我卷性价比。
不过我一直有个担心。Google的技术能力从来不差,差的是产品化能力。拥有最好的模型和拥有最好的产品,从来不是一回事。
这话扎心了,但确实是老问题。I/O能不能成为真正的回归舞台,就看他们这次能不能把产品做到位。
嗯,我觉得这轮AI竞赛的终局可能真不是谁造出最聪明的大脑,而是谁能用最便宜的芯片跑出最值钱的活。Google这次悄悄换牌,赌的就是这个未来。
说得好。下周Flash新版本可能就正式发布了,到时候咱们再聊聊实际跑起来到底怎么样。