李博!我最近被我们组的实习生问了一个问题,给我问住了。
哦?什么问题能把小雨姐问住,我不信。
他问我,平时在IDE里用AI写代码,到底该选哪个模型。不是那种旗舰大模型啊,就是日常干活用的便宜模型。我一想,还真没认真比过。
哈哈,这个问题其实特别好。你想啊,咱们一天写代码可能触发几百次模型调用,用旗舰模型那账单看了心脏受不了。所以业内管这类叫终端编码模型,专门塞到IDE里干活的。
对对对,就是这种。然后我正好看到KiloCode出了一个评测,把Claude Haiku 4.5、GPT-5 Mini和GLM-4.6放在一起比了一下。你看了没?
看了看了,而且我觉得这个评测方法特别值得聊。它不是那种传统跑HumanEval刷分的套路,而是让模型从零开始做一个完整项目——用TypeScript和SQLite搭一个任务队列系统,要支持延迟执行和持久化。
这个任务设计确实挺狠的,异步逻辑加并发控制,小模型最容易翻车的地方全覆盖了。
没错,而且三个模型用完全一样的提示词,没有针对任何一家做特殊优化。这才叫公平竞赛。
那结果呢?我先说一个让我特别意外的点——你猜最便宜的是谁?
GPT-5 Mini,五分钱。
对!但GLM-4.6反而最贵,一毛四。我第一反应是,不对啊,GLM单价不是最便宜的吗?
这就是这次评测最反直觉的发现。GLM-4.6的问题在于它太能写了,生成内容极其冗长,推理过程消耗了大量Token。单价便宜有什么用?总账算下来反而最贵。
这个洞察对我们做产品的太有用了。以后评估成本不能光看定价表,得看每次运行的实际花费。
你想想,一个团队一天调用几千次,单次差九分钱,一个月就是几千美元。
好,那我们一个一个聊。GPT-5 Mini你给它的评价是什么?
我跟你说,GPT-5 Mini是三个里面唯一一个真正理解SQLite并发限制的。你知道SQLite是文件级锁吧?同一时刻只能有一个写操作,多个进程同时写就会报SQLITE_BUSY错误。
嗯,这个我知道,生产环境不处理好就会丢数据。
GPT-5 Mini直接上了一套基于租约的锁系统。就像你去图书馆借书,不是永久借走,而是借30天,到期不还自动释放给别人。Worker拿到任务设个时限,崩溃了也不会死锁。
等等,它还用了指数退避?
对,失败了不是疯狂重试,而是1秒、2秒、4秒、8秒这样间隔递增,避免重试风暴把系统压垮。这是正经分布式系统的做法。
一个小模型能想到这些,有点离谱了。
所以评测给它的标签是系统工程师思维——不花哨,但正确,不会崩。
那GLM-4.6呢?你刚说它最贵,它贵在哪?
GLM的代码结构是真的漂亮。多文件架构、完整类型系统、枚举、优先队列,甚至自己手写了UUID生成函数。
手写UUID?不用现成的库?
对,有点用力过猛了哈哈。但最致命的问题是,它的推理模式和工具调用打架了。
什么意思?
推理模式开了思维链,模型在内部做多步推理的时候,输出格式被打乱了,工具调用需要的JSON结构直接废了。评测团队不得不关掉推理模式才能跑通。
这不就是……脑子越想越多,手越来越抖?
哈哈哈你这比喻绝了,但确实是这个意思。而且它在内存里追踪任务状态,程序一崩全丢。
代码仓库里看着赏心悦目,上线了让你欲哭无泪。
所以它是软件架构师思维——设计一流,落地堪忧。
好,最后说说我们家Haiku 4.5。三分钟完成,速度之王。
速度确实碾压,而且工具调用零失败,还主动加了统计功能和索引优化。很Claude的风格,贴心。
那问题在哪?
没有并发控制。没有锁,没有事务,什么安全保障都没有。
啊这……
就像一个UX设计师,界面做得漂漂亮亮,用户体验满分,但后端裸奔。Demo可以,上生产必出事。
所以总结一下,GPT-5 Mini适合生产部署,Haiku适合快速原型,GLM适合看代码结构找灵感?
基本就是这样。而且这次评测还暴露了一个很重要的维度——工具调用能力。能聊代码和能写代码,中间差的就是工具调用这一环。Haiku在这方面完美,GPT-5 Mini能自动恢复,GLM直接翻车。
嗯,这个对我们做AI产品集成的人来说太关键了。模型生成了正确的代码但写不进文件,那开发者还是得手动搞,体验直接崩。
其实你想想,这三家的差异也反映了各自的训练优先级。Anthropic死磕工具调用精准度,OpenAI深耕系统级推理和安全,智谱在结构化能力上有独到之处。
所以选模型这事儿,从来不是谁最强的问题,是谁最适合你当前场景的问题。五毛钱的GPT-5 Mini能搞定生产级并发安全,这性价比说实话挺炸的。
而且这些模型迭代太快了,现在的短板可能下个版本就补上了。我倒是挺期待看到更多这种实战评测的,比如API开发、前端构建这些场景。
行,那我回去就把这个结论甩给我们实习生。下次他再问我选哪个模型,我就说——先想清楚你要上生产还是做Demo。
哈哈,产品经理的标准答案——看场景。