哎李博,你最近是不是又在疯狂测新模型?我看你朋友圈连着发了好几条。
哈哈被你发现了。Anthropic刚出了个新模型,Claude Haiku 4.5,我这两天一直在跑benchmark。
Haiku?这不是他们那个最便宜的系列吗?有啥好激动的?
诶,这次不一样。这个Haiku 4.5是从Sonnet 4.5蒸馏出来的,你知道意味着什么吗?
等等,蒸馏?你给我用人话解释一下,别又开始学术了。
好好好。你想象一下,Sonnet 4.5是一个特别厉害的老师傅,什么都会,但请他干活贵啊。蒸馏就是让一个年轻徒弟,不是从零开始学,而是直接学师傅的思路和判断方式。
这个徒弟虽然脑容量小一点,但因为学的是师傅的精华,所以干出来的活儿质量非常接近。关键是——便宜快。
哦我懂了,就相当于把大模型的能力压缩到小模型里。那压缩完效果掉多少?
这就是让我兴奋的地方。SWE-Bench上,Sonnet 4.5是77.2分,Haiku 4.5拿了73.3分。
就差了不到4分?
对!但价格只有三分之一,速度快一倍。
真的假的?!这性价比也太离谱了吧。我们组现在用Sonnet做代码review,一个月API费用好几万呢。
我跟你说更离谱的——Haiku 4.5的编码能力,甚至比Claude Sonnet 4还强。注意,是Sonnet 4,不是4.5。
等会儿让我想想……就是说一个蒸馏出来的小模型,打赢了上一代更大的模型?
没错。这说明蒸馏技术在垂直领域的优化已经非常成熟了。精心蒸馏的小模型,在特定任务上完全可以超越更大但没经过同等优化的模型。
这个SWE-Bench我之前听你提过,它到底考的是啥?不会就是让AI写个函数那么简单吧?
那可不是。普林斯顿搞的这个benchmark,用的是GitHub上Django、Flask、scikit-learn这些真实项目的Issue。模型要自己去代码库里定位问题文件,然后生成修复补丁。
这需要代码理解、跨文件推理、测试验证,是真正的软件工程能力,不是写个冒泡排序就完事了。
那73分确实很能说明问题。哎对了,你觉得这对我们产品侧意味着什么?我一直在想怎么优化我们AI功能的成本。
你们产品经理就知道省钱。
得了吧,不省钱你们研究院的GPU谁给买?
哈哈行行行。其实现在业界已经有一个很成熟的做法了,叫模型路由器,Model Router。
模型路由器?
对,就是根据任务复杂度自动选模型。代码补全、简单重构、写文档这些高频任务,用Haiku 4.5。架构设计、复杂bug修复这种需要深度推理的,自动切到Sonnet 4.5。
这不就是我一直想做的分层策略嘛!之前成本差距没这么大,老板不批。现在三分之一的价格,我觉得能说服了。
而且别忘了安全这块。Anthropic说这是他们迄今最安全的模型之一,在生化武器、放射性材料这些高风险领域设了严格限制。
嗯这个对企业客户确实重要。我们对接金融客户的时候,合规审查卡得特别严。
对,尤其欧盟AI法案落地之后,安全性已经不是加分项了,是准入门槛。Anthropic从创立第一天就打安全牌,这方面确实有积累。
你说2025年这个趋势是不是越来越明显了?能力越来越强,价格越来越低。感觉AI编码工具要卷疯了。
已经卷疯了。OpenAI的o3系列、Google的Gemini 2.5 Pro,加上Cursor、Windsurf这些IDE工具,还有Devin那种AI Agent。底层模型降价,整个生态链都受益。
API便宜了,上层应用就能更频繁调用,给用户更好的体验。
没错,这是个正循环。而且我觉得蒸馏技术会越来越重要。以后可能每个旗舰模型出来,过几个月就会有对应的蒸馏版,性能保留八九成,成本砍掉大半。
这么一想,对我们做产品的人来说其实是好事。以前总在性能和成本之间纠结,现在选择多了。
嗯,AI编码确实进入性价比时代了。我建议你们团队可以先跑个A/B测试,看看日常任务用Haiku 4.5到底能省多少。
行,回去就安排。下次请你喝咖啡,算是咨询费了哈。
就一杯咖啡?你们产品经理真抠。