李博!你上周跟我说的那个Haiku 4.5,我这两天终于抽空看了一下测评。
哦?看了什么感受,是不是觉得有点离谱?
我先问你一个问题啊——一个轻量级模型,价格只有旗舰的三分之一,它凭什么能打?
嗯,这个问题问得好。先说结论吧——它不是凭什么能打,是它确实在打。有人做了个横评,三个前端场景,Haiku 4.5对比Sonnet 4.0、Gemini 2.5 Pro和GPT-5。
对对对我看的就是这个。统一prompt,只看第一次生成结果,挺公平的。
先说价格啊。Sonnet系列输入3美元、输出15美元每百万token,Haiku 4.5呢,输入1美元、输出5美元。整整便宜了三分之二。
这个对我们做产品的人来说太敏感了。你想啊,高频调用的场景,一天几十万次请求,成本差三倍那是真金白银。
对,而且它上下文窗口也是200K,跟Sonnet一样。不是说便宜就阉割你规格,该给的都给了。
好那我们直接看测试结果。第一个场景是生成SaaS落地页,这个算比较基础的任务吧?
对,四个模型全过了,没什么悬念。但有意思的是速度——Haiku 4.5明显最快。页面完整性上它跟Sonnet 4.0非常接近,Gemini和GPT-5走了不同的设计风格。
嗯这个我能理解,落地页嘛,对模型来说不算太难。第二个场景才是重头戏对吧?3D魔方!
对!这个场景我跟你说,难度直接上了一个台阶。你要在浏览器里实现一个可交互的3D魔方,涉及到CSS 3D Transform或者WebGL,还有旋转矩阵运算、手势识别——你得区分用户是想转整个魔方还是转某一行某一列。
等会儿,这个我有体感。我之前做过一个3D展示的需求,光让前端同事调旋转就调了两天。
对吧!所以这个场景特别能测出模型的空间理解能力和状态管理逻辑。结果呢——GPT-5直接翻车了。
真的假的?GPT-5?
真的。一操作魔方就完全变形,不可用状态。
那Haiku呢?
两轮小优化之后就能直接玩了,体验很流畅。Sonnet 4.0也没问题,一次过。Gemini能转整体但不能转单行单列,算半残。
所以一个三分之一价格的模型,在3D交互上比GPT-5强这么多?这也太……
哈哈你是不是想说离谱?
我想说的是——OpenAI的产品经理看到这个测评不得加班啊。
得了吧,人家可能根本不care前端这个赛道。不同模型侧重点不一样。
行行行,那第三个场景呢?天气动效?
这个场景更有意思。考的是CSS动效——雨滴下落、雪花飘落、云层移动这种。需要精确控制关键帧动画、贝塞尔曲线、多层元素叠加。
这个我懂!就是那种看着很炫但写起来巨烦的纯CSS效果。
对。结果你猜怎么着——Haiku 4.5在这个场景里反超了Sonnet 4.0。
啊?轻量级反超旗舰?
是的。Haiku用卡片形式展示不同天气,每种天气都有精细的CSS动效,整体美观度很高。Sonnet风格类似但卡片设计没它精致。然后GPT-5呢——
让我猜,又翻车了?
页面结构有,但动态效果完全没实现。prompt里明确要求的动效,它直接忽略了。
我跟你说,如果我是GPT-5的PM,我现在压力真的很大。两个场景翻车,一个是核心功能缺失,一个是完全不可用。
但公平地说,这只是前端代码生成这一个维度。GPT-5在推理、长文本理解这些方面可能有自己的优势,不能一棒子打死。
嗯你说得对。那回到Haiku 4.5——你觉得它适合什么样的团队用?
我觉得三类人会特别受益。第一,成本敏感的独立开发者和小团队;第二,需要快速出原型的场景,比如你们产品经理验证想法;第三,高频调用的自动化工作流。
但复杂交互还是得上旗舰?
对,如果你的业务逻辑很复杂,或者对代码质量要求很高要直接上生产,Sonnet 4.5或者Gemini 2.5 Pro还是更稳。
其实我最感慨的是这个趋势本身。知识蒸馏、模型剪枝这些技术,让轻量级模型越来越能打了。
你说到点上了。以前大家觉得参数量决定一切,现在发现训练策略、数据质量这些soft factor可能更重要。Haiku能用三分之一的成本逼近Sonnet,本质上是Anthropic在训练效率上的突破。
所以以后选模型这件事会越来越精细化——不是选最贵的,而是选最匹配场景的。
没错。模型选型正在从'选最强的'变成'选最合适的'。这对整个行业来说其实是好事,意味着AI编程的门槛在实实在在地降低。