李博!你看到Claude 4.5 Haiku的测评了吗?我今天差点在工位上喊出来。
哈哈哈,你是说那个独立测试的结果?看了看了,我当时第一反应是——不至于吧。
对,Anthropic官方说什么来着,三分之一的成本,接近Sonnet 4的编码能力。我还想着要不要给我们团队的API换过去呢。
幸好你没换。我跟你说,这个模型实测下来,综合排名掉到三十四到三十七位了。三十七位啊,你想想主流实验室的新模型,谁排过这么后面?
等等,三十七位?我以为你说错了。这不就是……垫底选手吗?
差不多就是这个意思。测试者还说反复跑了五次以上,结果稳定一致。不是偶然翻车,是真的不行。
那具体哪些任务测的?我好奇它到底差在哪。
基本上全面溃败。SVG图形生成,让它画一只拿着汉堡的熊猫,勉强能看出是个熊猫形状,但布局和细节惨不忍睹。你知道SVG测试为什么经典吗?
嗯……是不是因为它同时考察语言理解、空间认知和代码生成?
对!三重能力一起考。模型得理解'熊猫拿着汉堡'这个语义,搞清楚各部件的空间关系,还得输出合法的SVG坐标和路径。任何一环拉胯,出来的图就不能看。
那3D渲染呢?我记得Three.js精灵球也是个常见测试。
同样拉胯。相机位置、光源参数、几何体顶点数据,它处理不好。平面图生成更离谱,墙壁位置都是乱的。
好吧基础能力不行。那编码代理呢?Anthropic不是主推Claude Code吗,这才是他们的卖点啊。
这个更惨。Movie Tracker应用直接404,页面都打不开。Go Terminal Calculator一堆错误。Godot游戏开发到处报错。Svelte、Nuxt、Tauri框架全部拉胯。
真的假的?!这些可都是现代开发最主流的技术栈了。
对啊!Svelte是编译时前端框架,Nuxt是Vue全栈框架,Tauri是Electron的轻量替代。这些框架搞不定,你说开发者怎么用它?
那它到底能干啥……
画个花园里的蝴蝶还行吧,也就'还行'的水平。
哈哈哈,花了三分之一Sonnet的钱买了个画蝴蝶的。那性价比呢?我看到有人拿GLM 4.6对比。
这就更扎心了。GLM 4.6的token价格大概是Claude 4.5 Haiku的三分之一,但性能远超它。GPT-5 Mini也是碾压级的。还有个Grok CodeFast,价格更低编码更强。
所以它又贵又差?
精准总结。
那你觉得Anthropic到底怎么了?我记得Claude 3.5 Sonnet出来的时候,开发者社区多兴奋啊。
我跟你说一个比较尖锐的观点——有测试者认为3.5 Sonnet可能是Anthropic的一次幸运一击。某种训练数据的组合恰好在编码上表现炸裂,但后面的迭代一直没复现那个水平。
这……你们研究圈怎么看这个说法?
有一定道理。你看Sonnet 3.7本质上就是加了推理的同一个模型,Sonnet 4改进有限,Sonnet 4.5多个领域还退步了。这个趋势确实不太妙。
还有人说他们在刷基准测试?
对,这就是Goodhart定律——当一个指标变成目标时,它就不再是好指标。模型在benchmark上分数虚高,但真实任务表现平庸。投资者看的是数字,不是用户体验。
你们产品经理就知道用户体验……不对,这次我得站你这边。我要是企业客户,看到官方说接近Sonnet 4就切过去了,结果线上一跑全是bug,这信任损失太大了。
等等你刚才是不是想调侃我来着?
哈哈被你发现了。但说真的,Anthropic以前的口碑就是'不刷榜、注重实际表现',现在要是这个人设塌了……
失去的就不只是一个模型的口碑了,是整个品牌信誉。他们现在规模扩大、追求企业市场和估值增长,可能确实在战略上出了偏差。
嗯……所以结论就是,现阶段别用Claude 4.5 Haiku当主力,要性价比就选GLM 4.6或者GPT-5 Mini?
对,至少当前版本是这样。后续Anthropic可能会修,但就现在这个状态,真不推荐。希望他们能醒醒吧。
行,那我先去把我们组的API评估报告改了。差点踩坑,谢谢李博救我一命。
客气什么,下次请我喝咖啡就行。