播客频道 | Claude Haiku 4.5深度评测：成本降三分之一，编程性能比肩Sonnet 4

李博！上次你跟我安利那个Claude Sonnet 4，我还没用热乎呢，Anthropic又出新的了？哈哈对，这次出的是Haiku 4.5。但你先别急着翻白眼，这个真的值得聊。等一下，Haiku不是他们家最便宜那个档次吗？你一个搞研究的怎么突然关心起便宜货了？嘿，你这就外行了。这个'便宜货'现在编程能力已经追平上一代Sonnet 4了，但成本只要三分之一，速度还翻倍。真的假的？三分之一的价格干一样的活？我给你算笔账啊。Sonnet 4的输入价格是每百万Token三美元，输出十五美元。Haiku 4.5呢，输入一美元，输出五美元。 Token你可以理解成模型处理文字的最小单位，一个中文字大概对应一到两个Token。你想想大规模调用的场景，这个差距有多大。这我太懂了，我们之前做AI客服的时候，光API调用费一个月就烧好几万。要是能砍掉三分之二…… 对吧，所以我说这个事情本质上不是在聊一个新模型，是在聊整个行业的成本结构要变了。诶但我有个问题，便宜归便宜，它到底能干啥？你光说追平Sonnet 4，我没概念。来，我跟你说一个案例，你就懂了。有个开发者用Haiku 4.5在浏览器里搭了一个macOS风格的操作系统。在浏览器里搭操作系统？对，而且你猜花了多少钱？我猜……几十美元？ 28美分。人民币两块钱。两块钱？！我买杯奶茶都不够啊！哈哈是吧。而且这不是个玩具啊，里面有Finder文件管理器、Safari浏览器、计算器、备忘录、邮件、日历，全都能操作。窗口可以拖拽、缩放、层叠，连毛玻璃效果和Dock栏动画都有。等会儿让我想想……这种项目如果让我们团队的前端工程师从零做，怎么也得一两周吧？至少的。你想啊，完整的窗口管理系统、应用状态管理、文件系统模拟，代码量少说几千行，多的上万行。这对模型的长上下文理解和代码架构能力要求非常高。所以你的意思是，以后产品经理想验证一个想法，花两块钱就能出个原型？你们产品经理就知道快速验证。得了吧，这不是你们技术人最想看到的吗？需求文档直接变代码！行行行，确实。但我觉得更有意思的其实是另一个方向——多Agent协作。多Agent？就是好几个AI一起干活那种？对，你可以想象成一个AI团队。一个Agent负责分析需求，一个写代码，一个跑测试，一个写文档，它们并行工作、互相协调。但问题是，每个Agent每轮思考都要调一次模型，一个完整流程下来可能几十上百次调用。以前用贵的模型，成本根本扛不住。所以Haiku 4.5便宜这件事，在多Agent场景下就被放大了？你理解力可以啊。举个例子，四个Agent各跑二十轮，用Sonnet 4可能几十美元，换Haiku 4.5就降到个位数。这个差距足以改变企业的技术决策。这不就是从实验室玩具变成生产工具了嘛。就是这个意思！诶但我想追问一下，这背后到底是怎么做到的？小模型凭什么能追上大模型？不是说参数越多越强吗？好问题。AI行业之前确实有个信仰叫Scaling Law，就是越大越好。但2024年开始这个逻辑被动摇了。像Mistral、Phi这些小模型，通过更精细的数据筛选、知识蒸馏——就是把大模型的能力'压缩'进小模型——在特定任务上已经逼近甚至超过了大好几倍的模型。业界管这叫'小模型复兴'。所以不是参数越多越好，而是训练方法和数据质量更重要？ Exactly。Haiku 4.5就是这条路线的有力证明。这么一想，AI竞争的逻辑确实在变。以前大家比谁模型更强，现在开始比谁更高效了。嗯，而且你从产品角度想，一个成本低、速度快、能力够用的模型，在实际场景里往往比一个贵但只强一点点的模型更有价值。太对了。我们做产品的天天说'够用就好'，没想到AI模型也走到这一步了。所以我觉得Haiku 4.5可能只是个开始。以后AI辅助开发会真正变成每个开发者的标配，不再是少数人的特权。行，那我回去就让团队试试把客服系统切到Haiku 4.5，省下来的钱请你喝奶茶。两块钱的奶茶？那还不如让AI再帮你搭个macOS呢。

Claude Haiku 4.5深度评测：成本降三分之一，编程性能比肩Sonnet 4

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报