哎李博,你最近是不是又换模型了?我看你朋友圈发了个截图,Cursor里跑的好像不是Sonnet了。
哈哈被你发现了。Anthropic上周出了Haiku 4.5嘛,我第一时间就切过去试了。
等等,Haiku不是那个便宜快速的小模型吗?你之前不是嫌它太笨了不用的?
这次不一样。Anthropic说它智能水平接近Sonnet 4,速度还快两倍。我一听就觉得,这要是真的,那开发体验直接起飞啊。
接近Sonnet 4?那价格呢?
价格是Sonnet的三分之一。而且这次是Haiku系列第一个支持推理模式的模型,有20万token的上下文窗口,输出最长6.4万token。
推理模式就是那个让模型先想一想再回答的功能对吧?之前只有大模型才有。
对,就是Chain-of-Thought。模型不再直接蹦答案,而是先把问题拆解成步骤,一步步推导。这个能力下放到Haiku级别,确实是个质的飞跃。
那速度你实测了吗?真有两倍那么夸张?
我跟你说,我在Cursor里让它俩做同一个打字游戏,Haiku 4.5比Sonnet 4快了一分多钟。后来我又在Claude Code里跑了一遍,结果基本一致。
一分多钟?!那差距也太大了吧。
是的,而且这是两种不同范式下的测试——一个是IDE集成式,一个是命令行代理式,结果都一样,说明速度优势是实打实的。
那代码质量呢?快归快,写出来的东西能用吗?
嗯这个就有意思了。Haiku生成的UI确实更好看,但Sonnet的功能完整度更高。不过单个案例说明不了什么,得看基准测试。
好,那基准测试怎么说?
Anthropic官方数据特别亮眼——Haiku 4.5在SWEbench上居然击败了Sonnet 4,甚至超过GPT-5。SWEbench是从真实GitHub项目里提取bug修复任务,业界公认的编码黄金标准。
等会儿,一个小模型打赢了自家大模型?
对,说明Anthropic训练时明显侧重了编码能力。但是——
但是什么?
第三方评测平台Artificial Analysis的结果完全是另一个画风。在编码指数上,开了推理模式的Haiku 4.5,比GPT-5 Mini低了整整9个点。
9个点?!那差距可不小啊。官方数据和第三方差这么多?
这就是业界老问题了——benchmark gaming。厂商训练数据里可能包含类似基准测试的样本,导致过拟合。第三方测试条件统一、中立,更能反映真实能力。
好吧,那价格呢?反正Haiku系列一直主打便宜嘛。
这才是最离谱的部分。你猜Haiku 4.5多少钱?
比3.5便宜?
比3.5还贵!输入一块钱,输出五块钱每百万token。去年3.5才八毛和四块。涨了25%。
啊?现在不是所有模型都在降价吗?它逆势涨价?
对啊!你再看GPT-5 Mini,输入才两毛五,输出两块。Haiku的输入价格是人家四倍,性能还低9个点。
这性价比……我要是做产品选型,很难选Haiku啊。
还有智谱的GLM 4.6,五毛输入、一块七五输出,评测分还比Haiku高一个点。中国厂商的定价真的太激进了。
等等,我帮你算一下——同样的调用量,用GPT-5 Mini的成本大概是Haiku 4.5的四分之一到三分之一?
差不多。而且效果还更好。
那Anthropic图啥呢?
我觉得这是一次防守性更新。它不是为了抢市场,是为了不让自己生态里的用户跑掉。你想,已经在Claude Code里深度使用的开发者,切换成本很高。
嗯,这倒是。我们组有同事就是因为Claude Code用习惯了,换什么都不舒服。
对,所以Haiku 4.5的核心价值其实是生态锁定加速度优势。你要快速迭代、频繁调用,又已经在Anthropic体系里了,它确实是个不错的升级。
但如果是新项目选型,从零开始——
那GPT-5 Mini几乎没有对手。性价比维度上遥遥领先。
所以总结一下,Haiku 4.5速度是真快,推理能力是真有,但价格是真贵,性价比是真不行?
哈哈你这总结也太精辟了。不过我想说一个积极的角度——这种竞争态势对我们开发者来说是绝对的利好。
怎么说?
你看,轻量级模型现在卷成这样,OpenAI、智谱、Anthropic互相逼着降价提质。用不了多久,Anthropic要么降价,要么被市场教育。最终受益的是我们。
确实。一年前谁能想到这个级别的模型能这么便宜还这么能打。好了,今天就聊到这儿,我回去把我们组的选型方案更新一下。
行,记得帮我测测GLM 4.6在你们业务场景下的表现,我好奇中国模型在产品端到底怎么样。