播客频道 | Haiku 4.5 vs GPT-5 Mini vs GLM-4.6：低价编程模型实测对比

李博！我最近被我们组的实习生问了一个问题，给我问住了。哦？什么问题能把小雨姐问住，我不信。他问我，平时在IDE里用AI写代码，到底该选哪个模型。不是那种旗舰大模型啊，就是日常干活用的便宜模型。我一想，还真没认真比过。哈哈，这个问题其实特别好。你想啊，咱们一天写代码可能触发几百次模型调用，用旗舰模型那账单看了心脏受不了。所以业内管这类叫终端编码模型，专门塞到IDE里干活的。对对对，就是这种。然后我正好看到KiloCode出了一个评测，把Claude Haiku 4.5、GPT-5 Mini和GLM-4.6放在一起比了一下。你看了没？看了看了，而且我觉得这个评测方法特别值得聊。它不是那种传统跑HumanEval刷分的套路，而是让模型从零开始做一个完整项目——用TypeScript和SQLite搭一个任务队列系统，要支持延迟执行和持久化。这个任务设计确实挺狠的，异步逻辑加并发控制，小模型最容易翻车的地方全覆盖了。没错，而且三个模型用完全一样的提示词，没有针对任何一家做特殊优化。这才叫公平竞赛。那结果呢？我先说一个让我特别意外的点——你猜最便宜的是谁？ GPT-5 Mini，五分钱。对！但GLM-4.6反而最贵，一毛四。我第一反应是，不对啊，GLM单价不是最便宜的吗？这就是这次评测最反直觉的发现。GLM-4.6的问题在于它太能写了，生成内容极其冗长，推理过程消耗了大量Token。单价便宜有什么用？总账算下来反而最贵。这个洞察对我们做产品的太有用了。以后评估成本不能光看定价表，得看每次运行的实际花费。你想想，一个团队一天调用几千次，单次差九分钱，一个月就是几千美元。好，那我们一个一个聊。GPT-5 Mini你给它的评价是什么？我跟你说，GPT-5 Mini是三个里面唯一一个真正理解SQLite并发限制的。你知道SQLite是文件级锁吧？同一时刻只能有一个写操作，多个进程同时写就会报SQLITE_BUSY错误。嗯，这个我知道，生产环境不处理好就会丢数据。 GPT-5 Mini直接上了一套基于租约的锁系统。就像你去图书馆借书，不是永久借走，而是借30天，到期不还自动释放给别人。Worker拿到任务设个时限，崩溃了也不会死锁。等等，它还用了指数退避？对，失败了不是疯狂重试，而是1秒、2秒、4秒、8秒这样间隔递增，避免重试风暴把系统压垮。这是正经分布式系统的做法。一个小模型能想到这些，有点离谱了。所以评测给它的标签是系统工程师思维——不花哨，但正确，不会崩。那GLM-4.6呢？你刚说它最贵，它贵在哪？ GLM的代码结构是真的漂亮。多文件架构、完整类型系统、枚举、优先队列，甚至自己手写了UUID生成函数。手写UUID？不用现成的库？对，有点用力过猛了哈哈。但最致命的问题是，它的推理模式和工具调用打架了。什么意思？推理模式开了思维链，模型在内部做多步推理的时候，输出格式被打乱了，工具调用需要的JSON结构直接废了。评测团队不得不关掉推理模式才能跑通。这不就是……脑子越想越多，手越来越抖？哈哈哈你这比喻绝了，但确实是这个意思。而且它在内存里追踪任务状态，程序一崩全丢。代码仓库里看着赏心悦目，上线了让你欲哭无泪。所以它是软件架构师思维——设计一流，落地堪忧。好，最后说说我们家Haiku 4.5。三分钟完成，速度之王。速度确实碾压，而且工具调用零失败，还主动加了统计功能和索引优化。很Claude的风格，贴心。那问题在哪？没有并发控制。没有锁，没有事务，什么安全保障都没有。啊这…… 就像一个UX设计师，界面做得漂漂亮亮，用户体验满分，但后端裸奔。Demo可以，上生产必出事。所以总结一下，GPT-5 Mini适合生产部署，Haiku适合快速原型，GLM适合看代码结构找灵感？基本就是这样。而且这次评测还暴露了一个很重要的维度——工具调用能力。能聊代码和能写代码，中间差的就是工具调用这一环。Haiku在这方面完美，GPT-5 Mini能自动恢复，GLM直接翻车。嗯，这个对我们做AI产品集成的人来说太关键了。模型生成了正确的代码但写不进文件，那开发者还是得手动搞，体验直接崩。其实你想想，这三家的差异也反映了各自的训练优先级。Anthropic死磕工具调用精准度，OpenAI深耕系统级推理和安全，智谱在结构化能力上有独到之处。所以选模型这事儿，从来不是谁最强的问题，是谁最适合你当前场景的问题。五毛钱的GPT-5 Mini能搞定生产级并发安全，这性价比说实话挺炸的。而且这些模型迭代太快了，现在的短板可能下个版本就补上了。我倒是挺期待看到更多这种实战评测的，比如API开发、前端构建这些场景。行，那我回去就把这个结论甩给我们实习生。下次他再问我选哪个模型，我就说——先想清楚你要上生产还是做Demo。哈哈，产品经理的标准答案——看场景。

Haiku 4.5 vs GPT-5 Mini vs GLM-4.6：低价编程模型实测对比

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报

Haiku 4.5 vs GPT-5 Mini vs GLM-4.6：低价编程模型实测对比

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报