播客频道 | Kimi K2 Thinking实测：Claude Code中能否平替Sonnet 4.5？

李博！你最近有没有被Kimi K2刷屏？我朋友圈搞AI的全在转。哈哈，何止刷屏，我们组内部群都炸了。你知道最离谱的是什么吗？什么？训练成本，460万美元。四百六十万。GPT-4的训练成本估计超过一个亿美元，你感受一下这个差距。等等，460万？这也太……我们公司一个中型项目的预算都不止这个数吧。它怎么做到的？核心就是MoE架构，Mixture of Experts，混合专家。你可以这么理解——它总参数量是万亿级别的，但每次推理的时候不是所有参数都干活。就像一个公司有一千个专家，但每个项目只派最相关的几十个人上场，其他人休息。这样训练和推理的计算量就大幅下降了。哦这个类比我懂了。所以它便宜不是因为偷工减料，是架构本身就省钱。对，而且它在好几个benchmark上直接超过了GPT-5和Claude Sonnet 4.5。所以我一看到这个消息就想，得测测到底是不是真的。诶你说到Claude，我正好想聊这个。我们团队最近好几个人的Claude账号被封了，搞得人心惶惶的。你知道这事儿吧？知道知道，Anthropic从去年下半年开始收紧政策，国产IDE用户封号特别多，Cursor、Windsurf那些。所以Kimi K2这个时间点出来，简直是精准卡位。所以你真的把它接到Claude Code里测了？测了！而且接入过程简单得离谱，三步搞定。去Moonshot平台拿个API Key，设一下环境变量，启动Claude Code之后用斜杠model指定模型ID就行了。两分钟不到，国内用户用.cn域名，海外用.ai域名，完事儿。好，那咱直接聊测试结果吧。你先测的什么？先测了个文学创作，让它按长相思词牌写一首江南夜雨孤舟的宋词，同时给DeepSeek发了一模一样的prompt。然后让Gemini做盲评。盲评结果呢？ Gemini更倾向Kimi。评价是Kimi情感层层递进，情景交融浑然天成。DeepSeek那首意境是有的，但略显炫技。一个搞代码的模型，写词比DeepSeek还好？这我没想到。我也没想到，但更炸裂的在后面。你又要卖关子。哈哈不是，编程测试。基础的二次函数可视化，用Matplotlib画抛物线加动画，一次通过，完美。但3D旋转抛物面就拉胯了，效果不太行。所以基础编程没问题，复杂3D场景还差点意思？对。但真正让我服气的是智能体开发那个测试。我让它用微软AutoGen框架写一个代码优化智能体系统，要求用Kimi自己的API，支持多轮对话，还得有交互式UI。这个需求挺复杂的吧？AutoGen那个框架我听说过，多智能体协作的。不到一分钟，全部搞定，还附带了完整的说明文档。我输入一段冒泡排序，它直接给出问题分析加优化代码，优化后还支持自定义排序规则和自动性能优化。不到一分钟？！关键不是速度，是它需要主动去抓AutoGen的文档和代码案例，理解框架架构之后再开发。这考验的是工具调用能力，不是简单的代码生成。懂了懂了，就是说它不光会写代码，还会自己查资料学习新框架。这个能力对我们产品经理来说太有用了，很多时候就是需要它快速上手一个不熟悉的技术栈。你们产品经理就知道用户体验。得了吧，用户体验不重要吗？对了，你还测了什么？测了MCP浏览器自动化，让它通过Chrome DevTools自动访问博客，提取前三篇文章的标题、日期和正文，输出JSON。执行得又快又准。还有一个我觉得特别能说明问题的——Swift开发。让它在一个番茄钟App上新增自定义专注时长功能。 Swift？这个语言训练数据应该比Python少很多吧。你这个直觉很准。Swift的开源代码库比Python小得多，大量iOS代码在私有仓库里。所以模型处理Swift更多靠跨语言泛化推理，不是直接匹配训练数据。那结果呢？一轮对话，全自动完成，运行测试完全正常。一轮！这也太夸张了吧！iOS开发者听到这个应该会很兴奋。最后的终极测试是全栈应用——React加Node.js加Supabase数据库，做一个背单词App。单词卡片、练习测试、进度追踪、智能算法，全套功能。这个复杂度就上来了，前后端加数据库，三层都得对。五分钟完成开发，首次启动前端报了个错，把错误信息丢回去，它自己修好了。最终单词卡片、发音播放、分类筛选、选择题练习全都跑通了。五分钟……我让我们组实习生写这个至少得一周吧。哈哈别这样，实习生会哭的。不过确实，唯一的小问题是UI文字默认英文，但这种事后续一句话就能改。好，那你给个总结性的判断。它到底能不能平替Sonnet 4.5？我的结论是——编程能力介于Claude Opus 4.1和Sonnet 4.5之间，强于DeepSeek最新模型。不是完全平替，但考虑到它的token价格远低于Sonnet 4.5，性价比极高。日常编程开发完全够用。复杂3D可视化这种还差点，但文本创作、智能体开发、工具链集成这些，表现都是优秀级别的。嗯，其实对于被Claude封号困扰的开发者来说，不需要它完全平替，够用就行。三步接入，成本还低，这个组合确实很有吸引力。对，而且你想想，460万美元训练出来的模型能到这个水平，说明MoE这条路线是真的走通了。以后这种高性价比的模型只会越来越多。行，那今天就聊到这儿。我回去就把我们组的环境切过去试试，被封号搞怕了。试完记得跟我说体验，我赌你会真香。

Kimi K2 Thinking实测：Claude Code中能否平替Sonnet 4.5？

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报