播客频道 | Claude Haiku 4.5评测：1%成本实现Sonnet 4级代码能力

李博！你上周跟我说Anthropic要放大招，我还以为你又在吹牛，结果今天一看——Haiku 4.5这数据，有点东西啊。哈哈，我什么时候吹过牛？我跟你说，这次是真的炸了。你先猜猜，Haiku 4.5在SWE-bench上跑了多少分？ SWE-bench……就是那个用GitHub真实bug来考AI的测试对吧？我猜……60%？毕竟是个小模型嘛。 73.3%。等等，七十三？！这不是跟Sonnet 4一个水平了吗？不是一个水平，是某些项上直接超了。而且你知道最离谱的是什么吗？成本大概只有Sonnet 4的百分之一，速度还快了两倍。百分之一……我消化一下这个数字。就是说五个月前还是前沿旗舰的能力，现在一个廉价版就能做到？对，这就是AI行业现在的节奏。我们内部管这个叫'性能下沉'——今天的天花板，过几个月就变成地板了。好，那我得问清楚，SWE-bench到底考的是什么？我之前看HumanEval那种测试，感觉就是写写小函数，跟实际工作差距挺大的。问得好。SWE-bench是普林斯顿团队搞的，它从Django、scikit-learn这些大型开源项目里抽真实的bug修复任务。模型得自己看issue描述，在几万行代码里定位问题文件，然后生成正确的补丁。这跟写个排序函数完全不是一个量级。它考的是端到端的软件工程能力——理解需求、代码导航、生成修复方案，整套流程。所以73.3%意味着它能独立解决将近四分之三的真实bug？这放在我们团队里，比不少初级工程师都强了吧…… 你这么说也不算夸张。而且更关键的是它的智能体编码能力。智能体编码？这个词我最近听好多次了，你给翻译翻译。简单说就是AI不再只是你问一句它答一句了。它像一个自主的工程师，会自己规划步骤、读文件、跑测试、看报错、回头改代码。整个过程可能涉及几十上百次工具调用。 Haiku 4.5在这个方向上超过了所有同级别模型，跟Sonnet 4打平，只比GPT-5差一点。你想想，这可是个一美元百万token的模型。一美元百万token……我换算一下，大概就是处理十本书的内容只要一块钱？差不多，75万个英文单词，一美元。那批量处理呢？我记得文章里提到更便宜？批量处理低到一毛钱一百万token。就是你把任务攒一批提交，系统在低峰期跑，价格直接砍到十分之一。这价格……我们产品线要是接入这个，成本能省一大截。诶对了，还有个让我特别惊讶的——Computer Use，就是AI直接操作电脑的那个能力，Haiku 4.5居然比Sonnet 4还强？对，这个我也没想到。Computer Use就是让AI通过看屏幕截图、移动鼠标、点击按钮来完成任务。传统自动化你得给每个软件写API对接，但这个方式让AI直接用人类的图形界面。那RPA行业不得慌了？何止慌，直接被颠覆。你想想，以后任何基于电脑的工作流程理论上都能自动化。好，那实际效果呢？光看跑分我不信，你们产品经理就是这样—— 哎哎，这次是你们产品经理该说的台词吧？哈哈好吧。那实测呢？我看有人让它在浏览器里做了个MacOS系统？对，用KiloCode平台测的。让它做一个浏览器端的MacOS风格系统，所有应用都能跑。Finder能浏览文件，Safari居然真能访问网页，计算器、日历、笔记全都能用。总花费——28美分。二毛八？！我上次让实习生做个类似的demo，花了两天…… 哈哈别这样，实习生听了要哭的。不过SVG图形生成这块它还是有短板，画个蝴蝶只能打5.5分，说明空间推理和美学判断还有差距。嗯，这倒合理。那Anthropic自己推荐的那个双模型协同方案，你怎么看？就是Sonnet 4.5做规划，多个Haiku 4.5并行执行。这个思路其实特别聪明。本质上就是分层智能体架构——一个贵但聪明的模型当指挥官，负责任务拆解和策略规划；一堆便宜但快的模型当执行者，并行干活。经济学上很划算：复杂推理只在规划阶段烧钱，占大头的执行工作全用廉价模型搞定。OpenAI的Swarm、LangChain的多智能体系统，思路都差不多。就像公司里VP定方向，一线员工并行推进？你这个类比……准确但扎心。哈哈哈！那竞争对手呢？Google的Gemini 3.0是不是快来了？嗯，Gemini 3.0 Flash据说在Computer Use上比Sonnet 4.5还快，价格只有三分之一。但这恰恰说明了行业在良性竞争——大家都在拼命把成本往下压，性能往上拉。所以对开发者来说，现在反而是最好的时候？绝对是。半年前要花顶级价格才能用到的能力，现在百分之一的成本就有了。而且这个趋势还在加速。嗯……我突然有点感慨。前沿AI能力以这种速度往下渗透，对整个应用生态来说确实是大利好。以前觉得太贵不敢上的场景，现在可能都能跑起来了。对，这才是Haiku 4.5真正的意义。不是某个跑分多高，而是它证明了一件事——前沿级别的AI能力正在以前所未有的速度变得人人可用。好，那我回去就跟团队提方案，先把Haiku 4.5接进来试试。李博，下次Gemini 3.0出来咱们再聊一期？没问题，到时候又有得吵了。

Claude Haiku 4.5评测：1%成本实现Sonnet 4级代码能力

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报