播客频道 | Claude 4.5 Haiku实测翻车：编码能力全面溃败，性价比被竞品碾压

李博！你看到Claude 4.5 Haiku的测评了吗？我今天差点在工位上喊出来。哈哈哈，你是说那个独立测试的结果？看了看了，我当时第一反应是——不至于吧。对，Anthropic官方说什么来着，三分之一的成本，接近Sonnet 4的编码能力。我还想着要不要给我们团队的API换过去呢。幸好你没换。我跟你说，这个模型实测下来，综合排名掉到三十四到三十七位了。三十七位啊，你想想主流实验室的新模型，谁排过这么后面？等等，三十七位？我以为你说错了。这不就是……垫底选手吗？差不多就是这个意思。测试者还说反复跑了五次以上，结果稳定一致。不是偶然翻车，是真的不行。那具体哪些任务测的？我好奇它到底差在哪。基本上全面溃败。SVG图形生成，让它画一只拿着汉堡的熊猫，勉强能看出是个熊猫形状，但布局和细节惨不忍睹。你知道SVG测试为什么经典吗？嗯……是不是因为它同时考察语言理解、空间认知和代码生成？对！三重能力一起考。模型得理解'熊猫拿着汉堡'这个语义，搞清楚各部件的空间关系，还得输出合法的SVG坐标和路径。任何一环拉胯，出来的图就不能看。那3D渲染呢？我记得Three.js精灵球也是个常见测试。同样拉胯。相机位置、光源参数、几何体顶点数据，它处理不好。平面图生成更离谱，墙壁位置都是乱的。好吧基础能力不行。那编码代理呢？Anthropic不是主推Claude Code吗，这才是他们的卖点啊。这个更惨。Movie Tracker应用直接404，页面都打不开。Go Terminal Calculator一堆错误。Godot游戏开发到处报错。Svelte、Nuxt、Tauri框架全部拉胯。真的假的？！这些可都是现代开发最主流的技术栈了。对啊！Svelte是编译时前端框架，Nuxt是Vue全栈框架，Tauri是Electron的轻量替代。这些框架搞不定，你说开发者怎么用它？那它到底能干啥…… 画个花园里的蝴蝶还行吧，也就'还行'的水平。哈哈哈，花了三分之一Sonnet的钱买了个画蝴蝶的。那性价比呢？我看到有人拿GLM 4.6对比。这就更扎心了。GLM 4.6的token价格大概是Claude 4.5 Haiku的三分之一，但性能远超它。GPT-5 Mini也是碾压级的。还有个Grok CodeFast，价格更低编码更强。所以它又贵又差？精准总结。那你觉得Anthropic到底怎么了？我记得Claude 3.5 Sonnet出来的时候，开发者社区多兴奋啊。我跟你说一个比较尖锐的观点——有测试者认为3.5 Sonnet可能是Anthropic的一次幸运一击。某种训练数据的组合恰好在编码上表现炸裂，但后面的迭代一直没复现那个水平。这……你们研究圈怎么看这个说法？有一定道理。你看Sonnet 3.7本质上就是加了推理的同一个模型，Sonnet 4改进有限，Sonnet 4.5多个领域还退步了。这个趋势确实不太妙。还有人说他们在刷基准测试？对，这就是Goodhart定律——当一个指标变成目标时，它就不再是好指标。模型在benchmark上分数虚高，但真实任务表现平庸。投资者看的是数字，不是用户体验。你们产品经理就知道用户体验……不对，这次我得站你这边。我要是企业客户，看到官方说接近Sonnet 4就切过去了，结果线上一跑全是bug，这信任损失太大了。等等你刚才是不是想调侃我来着？哈哈被你发现了。但说真的，Anthropic以前的口碑就是'不刷榜、注重实际表现'，现在要是这个人设塌了…… 失去的就不只是一个模型的口碑了，是整个品牌信誉。他们现在规模扩大、追求企业市场和估值增长，可能确实在战略上出了偏差。嗯……所以结论就是，现阶段别用Claude 4.5 Haiku当主力，要性价比就选GLM 4.6或者GPT-5 Mini？对，至少当前版本是这样。后续Anthropic可能会修，但就现在这个状态，真不推荐。希望他们能醒醒吧。行，那我先去把我们组的API评估报告改了。差点踩坑，谢谢李博救我一命。客气什么，下次请我喝咖啡就行。

Claude 4.5 Haiku实测翻车：编码能力全面溃败，性价比被竞品碾压

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报