李博!你上周跟我说Anthropic要放大招,我还以为你又在吹牛,结果今天一看——Haiku 4.5这数据,有点东西啊。
哈哈,我什么时候吹过牛?我跟你说,这次是真的炸了。你先猜猜,Haiku 4.5在SWE-bench上跑了多少分?
SWE-bench……就是那个用GitHub真实bug来考AI的测试对吧?我猜……60%?毕竟是个小模型嘛。
73.3%。
等等,七十三?!这不是跟Sonnet 4一个水平了吗?
不是一个水平,是某些项上直接超了。而且你知道最离谱的是什么吗?成本大概只有Sonnet 4的百分之一,速度还快了两倍。
百分之一……我消化一下这个数字。就是说五个月前还是前沿旗舰的能力,现在一个廉价版就能做到?
对,这就是AI行业现在的节奏。我们内部管这个叫'性能下沉'——今天的天花板,过几个月就变成地板了。
好,那我得问清楚,SWE-bench到底考的是什么?我之前看HumanEval那种测试,感觉就是写写小函数,跟实际工作差距挺大的。
问得好。SWE-bench是普林斯顿团队搞的,它从Django、scikit-learn这些大型开源项目里抽真实的bug修复任务。模型得自己看issue描述,在几万行代码里定位问题文件,然后生成正确的补丁。
这跟写个排序函数完全不是一个量级。它考的是端到端的软件工程能力——理解需求、代码导航、生成修复方案,整套流程。
所以73.3%意味着它能独立解决将近四分之三的真实bug?这放在我们团队里,比不少初级工程师都强了吧……
你这么说也不算夸张。而且更关键的是它的智能体编码能力。
智能体编码?这个词我最近听好多次了,你给翻译翻译。
简单说就是AI不再只是你问一句它答一句了。它像一个自主的工程师,会自己规划步骤、读文件、跑测试、看报错、回头改代码。整个过程可能涉及几十上百次工具调用。
Haiku 4.5在这个方向上超过了所有同级别模型,跟Sonnet 4打平,只比GPT-5差一点。你想想,这可是个一美元百万token的模型。
一美元百万token……我换算一下,大概就是处理十本书的内容只要一块钱?
差不多,75万个英文单词,一美元。
那批量处理呢?我记得文章里提到更便宜?
批量处理低到一毛钱一百万token。就是你把任务攒一批提交,系统在低峰期跑,价格直接砍到十分之一。
这价格……我们产品线要是接入这个,成本能省一大截。诶对了,还有个让我特别惊讶的——Computer Use,就是AI直接操作电脑的那个能力,Haiku 4.5居然比Sonnet 4还强?
对,这个我也没想到。Computer Use就是让AI通过看屏幕截图、移动鼠标、点击按钮来完成任务。传统自动化你得给每个软件写API对接,但这个方式让AI直接用人类的图形界面。
那RPA行业不得慌了?
何止慌,直接被颠覆。你想想,以后任何基于电脑的工作流程理论上都能自动化。
好,那实际效果呢?光看跑分我不信,你们产品经理就是这样——
哎哎,这次是你们产品经理该说的台词吧?
哈哈好吧。那实测呢?我看有人让它在浏览器里做了个MacOS系统?
对,用KiloCode平台测的。让它做一个浏览器端的MacOS风格系统,所有应用都能跑。Finder能浏览文件,Safari居然真能访问网页,计算器、日历、笔记全都能用。总花费——28美分。
二毛八?!我上次让实习生做个类似的demo,花了两天……
哈哈别这样,实习生听了要哭的。不过SVG图形生成这块它还是有短板,画个蝴蝶只能打5.5分,说明空间推理和美学判断还有差距。
嗯,这倒合理。那Anthropic自己推荐的那个双模型协同方案,你怎么看?就是Sonnet 4.5做规划,多个Haiku 4.5并行执行。
这个思路其实特别聪明。本质上就是分层智能体架构——一个贵但聪明的模型当指挥官,负责任务拆解和策略规划;一堆便宜但快的模型当执行者,并行干活。
经济学上很划算:复杂推理只在规划阶段烧钱,占大头的执行工作全用廉价模型搞定。OpenAI的Swarm、LangChain的多智能体系统,思路都差不多。
就像公司里VP定方向,一线员工并行推进?
你这个类比……准确但扎心。
哈哈哈!那竞争对手呢?Google的Gemini 3.0是不是快来了?
嗯,Gemini 3.0 Flash据说在Computer Use上比Sonnet 4.5还快,价格只有三分之一。但这恰恰说明了行业在良性竞争——大家都在拼命把成本往下压,性能往上拉。
所以对开发者来说,现在反而是最好的时候?
绝对是。半年前要花顶级价格才能用到的能力,现在百分之一的成本就有了。而且这个趋势还在加速。
嗯……我突然有点感慨。前沿AI能力以这种速度往下渗透,对整个应用生态来说确实是大利好。以前觉得太贵不敢上的场景,现在可能都能跑起来了。
对,这才是Haiku 4.5真正的意义。不是某个跑分多高,而是它证明了一件事——前沿级别的AI能力正在以前所未有的速度变得人人可用。
好,那我回去就跟团队提方案,先把Haiku 4.5接进来试试。李博,下次Gemini 3.0出来咱们再聊一期?
没问题,到时候又有得吵了。