李博!你最近有没有被Kimi K2刷屏?我朋友圈搞AI的全在转。
哈哈,何止刷屏,我们组内部群都炸了。你知道最离谱的是什么吗?
什么?
训练成本,460万美元。四百六十万。GPT-4的训练成本估计超过一个亿美元,你感受一下这个差距。
等等,460万?这也太……我们公司一个中型项目的预算都不止这个数吧。它怎么做到的?
核心就是MoE架构,Mixture of Experts,混合专家。你可以这么理解——它总参数量是万亿级别的,但每次推理的时候不是所有参数都干活。
就像一个公司有一千个专家,但每个项目只派最相关的几十个人上场,其他人休息。这样训练和推理的计算量就大幅下降了。
哦这个类比我懂了。所以它便宜不是因为偷工减料,是架构本身就省钱。
对,而且它在好几个benchmark上直接超过了GPT-5和Claude Sonnet 4.5。所以我一看到这个消息就想,得测测到底是不是真的。
诶你说到Claude,我正好想聊这个。我们团队最近好几个人的Claude账号被封了,搞得人心惶惶的。你知道这事儿吧?
知道知道,Anthropic从去年下半年开始收紧政策,国产IDE用户封号特别多,Cursor、Windsurf那些。所以Kimi K2这个时间点出来,简直是精准卡位。
所以你真的把它接到Claude Code里测了?
测了!而且接入过程简单得离谱,三步搞定。去Moonshot平台拿个API Key,设一下环境变量,启动Claude Code之后用斜杠model指定模型ID就行了。
两分钟不到,国内用户用.cn域名,海外用.ai域名,完事儿。
好,那咱直接聊测试结果吧。你先测的什么?
先测了个文学创作,让它按长相思词牌写一首江南夜雨孤舟的宋词,同时给DeepSeek发了一模一样的prompt。然后让Gemini做盲评。
盲评结果呢?
Gemini更倾向Kimi。评价是Kimi情感层层递进,情景交融浑然天成。DeepSeek那首意境是有的,但略显炫技。
一个搞代码的模型,写词比DeepSeek还好?这我没想到。
我也没想到,但更炸裂的在后面。
你又要卖关子。
哈哈不是,编程测试。基础的二次函数可视化,用Matplotlib画抛物线加动画,一次通过,完美。但3D旋转抛物面就拉胯了,效果不太行。
所以基础编程没问题,复杂3D场景还差点意思?
对。但真正让我服气的是智能体开发那个测试。我让它用微软AutoGen框架写一个代码优化智能体系统,要求用Kimi自己的API,支持多轮对话,还得有交互式UI。
这个需求挺复杂的吧?AutoGen那个框架我听说过,多智能体协作的。
不到一分钟,全部搞定,还附带了完整的说明文档。我输入一段冒泡排序,它直接给出问题分析加优化代码,优化后还支持自定义排序规则和自动性能优化。
不到一分钟?!
关键不是速度,是它需要主动去抓AutoGen的文档和代码案例,理解框架架构之后再开发。这考验的是工具调用能力,不是简单的代码生成。
懂了懂了,就是说它不光会写代码,还会自己查资料学习新框架。这个能力对我们产品经理来说太有用了,很多时候就是需要它快速上手一个不熟悉的技术栈。
你们产品经理就知道用户体验。
得了吧,用户体验不重要吗?对了,你还测了什么?
测了MCP浏览器自动化,让它通过Chrome DevTools自动访问博客,提取前三篇文章的标题、日期和正文,输出JSON。执行得又快又准。
还有一个我觉得特别能说明问题的——Swift开发。让它在一个番茄钟App上新增自定义专注时长功能。
Swift?这个语言训练数据应该比Python少很多吧。
你这个直觉很准。Swift的开源代码库比Python小得多,大量iOS代码在私有仓库里。所以模型处理Swift更多靠跨语言泛化推理,不是直接匹配训练数据。
那结果呢?
一轮对话,全自动完成,运行测试完全正常。一轮!
这也太夸张了吧!iOS开发者听到这个应该会很兴奋。
最后的终极测试是全栈应用——React加Node.js加Supabase数据库,做一个背单词App。单词卡片、练习测试、进度追踪、智能算法,全套功能。
这个复杂度就上来了,前后端加数据库,三层都得对。
五分钟完成开发,首次启动前端报了个错,把错误信息丢回去,它自己修好了。最终单词卡片、发音播放、分类筛选、选择题练习全都跑通了。
五分钟……我让我们组实习生写这个至少得一周吧。
哈哈别这样,实习生会哭的。不过确实,唯一的小问题是UI文字默认英文,但这种事后续一句话就能改。
好,那你给个总结性的判断。它到底能不能平替Sonnet 4.5?
我的结论是——编程能力介于Claude Opus 4.1和Sonnet 4.5之间,强于DeepSeek最新模型。不是完全平替,但考虑到它的token价格远低于Sonnet 4.5,性价比极高。
日常编程开发完全够用。复杂3D可视化这种还差点,但文本创作、智能体开发、工具链集成这些,表现都是优秀级别的。
嗯,其实对于被Claude封号困扰的开发者来说,不需要它完全平替,够用就行。三步接入,成本还低,这个组合确实很有吸引力。
对,而且你想想,460万美元训练出来的模型能到这个水平,说明MoE这条路线是真的走通了。以后这种高性价比的模型只会越来越多。
行,那今天就聊到这儿。我回去就把我们组的环境切过去试试,被封号搞怕了。
试完记得跟我说体验,我赌你会真香。