播客频道 | Claude Haiku 4.5实测：速度虽快，性价比不敌GPT-5 Mini

哎李博，你最近是不是又换模型了？我看你朋友圈发了个截图，Cursor里跑的好像不是Sonnet了。哈哈被你发现了。Anthropic上周出了Haiku 4.5嘛，我第一时间就切过去试了。等等，Haiku不是那个便宜快速的小模型吗？你之前不是嫌它太笨了不用的？这次不一样。Anthropic说它智能水平接近Sonnet 4，速度还快两倍。我一听就觉得，这要是真的，那开发体验直接起飞啊。接近Sonnet 4？那价格呢？价格是Sonnet的三分之一。而且这次是Haiku系列第一个支持推理模式的模型，有20万token的上下文窗口，输出最长6.4万token。推理模式就是那个让模型先想一想再回答的功能对吧？之前只有大模型才有。对，就是Chain-of-Thought。模型不再直接蹦答案，而是先把问题拆解成步骤，一步步推导。这个能力下放到Haiku级别，确实是个质的飞跃。那速度你实测了吗？真有两倍那么夸张？我跟你说，我在Cursor里让它俩做同一个打字游戏，Haiku 4.5比Sonnet 4快了一分多钟。后来我又在Claude Code里跑了一遍，结果基本一致。一分多钟？！那差距也太大了吧。是的，而且这是两种不同范式下的测试——一个是IDE集成式，一个是命令行代理式，结果都一样，说明速度优势是实打实的。那代码质量呢？快归快，写出来的东西能用吗？嗯这个就有意思了。Haiku生成的UI确实更好看，但Sonnet的功能完整度更高。不过单个案例说明不了什么，得看基准测试。好，那基准测试怎么说？ Anthropic官方数据特别亮眼——Haiku 4.5在SWEbench上居然击败了Sonnet 4，甚至超过GPT-5。SWEbench是从真实GitHub项目里提取bug修复任务，业界公认的编码黄金标准。等会儿，一个小模型打赢了自家大模型？对，说明Anthropic训练时明显侧重了编码能力。但是—— 但是什么？第三方评测平台Artificial Analysis的结果完全是另一个画风。在编码指数上，开了推理模式的Haiku 4.5，比GPT-5 Mini低了整整9个点。 9个点？！那差距可不小啊。官方数据和第三方差这么多？这就是业界老问题了——benchmark gaming。厂商训练数据里可能包含类似基准测试的样本，导致过拟合。第三方测试条件统一、中立，更能反映真实能力。好吧，那价格呢？反正Haiku系列一直主打便宜嘛。这才是最离谱的部分。你猜Haiku 4.5多少钱？比3.5便宜？比3.5还贵！输入一块钱，输出五块钱每百万token。去年3.5才八毛和四块。涨了25%。啊？现在不是所有模型都在降价吗？它逆势涨价？对啊！你再看GPT-5 Mini，输入才两毛五，输出两块。Haiku的输入价格是人家四倍，性能还低9个点。这性价比……我要是做产品选型，很难选Haiku啊。还有智谱的GLM 4.6，五毛输入、一块七五输出，评测分还比Haiku高一个点。中国厂商的定价真的太激进了。等等，我帮你算一下——同样的调用量，用GPT-5 Mini的成本大概是Haiku 4.5的四分之一到三分之一？差不多。而且效果还更好。那Anthropic图啥呢？我觉得这是一次防守性更新。它不是为了抢市场，是为了不让自己生态里的用户跑掉。你想，已经在Claude Code里深度使用的开发者，切换成本很高。嗯，这倒是。我们组有同事就是因为Claude Code用习惯了，换什么都不舒服。对，所以Haiku 4.5的核心价值其实是生态锁定加速度优势。你要快速迭代、频繁调用，又已经在Anthropic体系里了，它确实是个不错的升级。但如果是新项目选型，从零开始—— 那GPT-5 Mini几乎没有对手。性价比维度上遥遥领先。所以总结一下，Haiku 4.5速度是真快，推理能力是真有，但价格是真贵，性价比是真不行？哈哈你这总结也太精辟了。不过我想说一个积极的角度——这种竞争态势对我们开发者来说是绝对的利好。怎么说？你看，轻量级模型现在卷成这样，OpenAI、智谱、Anthropic互相逼着降价提质。用不了多久，Anthropic要么降价，要么被市场教育。最终受益的是我们。确实。一年前谁能想到这个级别的模型能这么便宜还这么能打。好了，今天就聊到这儿，我回去把我们组的选型方案更新一下。行，记得帮我测测GLM 4.6在你们业务场景下的表现，我好奇中国模型在产品端到底怎么样。

Claude Haiku 4.5实测：速度虽快，性价比不敌GPT-5 Mini

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报