播客频道 | GLM-4.7深度实测：编程能力全面对标Claude Sonnet 4.5

李博！你最近有没有看智谱那个新模型？我朋友圈都刷屏了。 GLM-4.7嘛，我前两天就开始玩了。你说实话，我一开始是带着怀疑态度去的。哈哈，你这人每次都这样，先怀疑再真香。这次呢？这次……确实有点真香。先说结论吧——这个模型的编程能力，我觉得已经能跟Claude Sonnet 4.5正面打了。等会儿，这话说得也太大了吧？它不是开源模型吗？358B参数的MOE架构，我看了一眼就觉得挺猛的，但跟闭源顶级模型比…… 你知道MOE的精髓在哪吗？它虽然总参数3580亿，但推理的时候只激活一部分专家网络。你可以理解成一个大公司，几百号人，但每个项目只抽十几个最合适的人来干活。哦这个比喻好，就是效率高、成本低。对，DeepSeek V3也是这个路线。而且GLM-4.7用的是MIT协议，这个才是真正的大招。 MIT协议我知道，最宽松的那种对吧？就是你随便用，商用也行，改了也不用公开代码。没错。你对比一下Meta的Llama，月活超7亿还得额外授权。GLM-4.7直接说了，你拿去随便造，我不管。对中小团队来说这太友好了。行，协议确实香。但我更关心的是——它真的能写代码吗？官方benchmark我看了，数学95.7分，代码、推理都说超过DeepSeek V3.2和Claude Sonnet 4.5。但你也知道benchmark这东西…… 你想说过拟合的问题对吧？对啊，训练的时候见过类似题目，分数好看但实际不一定行。所以我才自己跑了一堆实测。我跟你说第一个测试的结果，我自己都愣了。什么测试？就一句话——'用SVG生成模拟太阳系的动画'。它直接给我输出了八大行星绑定轨道公转，月球绕地球转，土星还带光环。一句prompt，零修改直接跑通。真的假的？！土星光环都有？这细节也太到位了吧。我当时的反应跟你一模一样。然后我就不信邪了，加难度——让它做一个太空主题的冒泡排序可视化，12颗小行星随机排列，一艘指挥舰逐个比较交换，还要实时显示状态。这个有意思，又考算法又考动画设计。全程零报错，动画流畅，界面还显示'正在比较'、'正在交换'。我说实话，这种跨领域整合能力，放半年前开源模型根本做不到。那你有没有试更变态的？你太了解我了。我让它用纯HTML5 Canvas写一个3D恐龙狩猎游戏——皮卡车、机枪、鼠标瞄准、键盘移动、侏罗纪环境，全要。等等，纯Canvas做3D？不用Three.js？那不是得手动处理透视变换、深度排序这些？你们产品经理什么时候懂这么多了？得了吧，我之前做过一个WebGL相关的需求好吗。哈哈好吧。对，纯Canvas做3D确实难度拉满，透视投影、碰撞检测、AI行为系统全得自己写。但GLM-4.7一次生成就跑通了——恐龙被打还会逃跑，远处有雾气山脉，氛围感很足。这就不只是写代码了，这是有审美的。我做产品最怕的就是工程师说'功能实现了但是丑'。对，它确实在视觉表现上也花了心思。然后我又测了浏览器自动化——通过MCP协议让它操控Chrome，访问博客、点文章、提取内容、改写成推文。 MCP就是Anthropic搞的那个工具调用协议对吧？让模型能像调API一样操控外部工具。对。这个测试的关键不是代码能力，而是Agentic能力——模型得自己规划步骤、调用工具、根据反馈调整。GLM-4.7全流程跑下来又快又准，输出的推文还自带emoji和话题标签。懂了懂了，这不就是我们说的AI Agent嘛。那我问个更狠的——移动端能不能搞？你这个问题问得好，因为最后一个测试就是iOS原生APP开发。不是吧？！iOS原生？SwiftUI那套？ iOS 17、Swift 5.9、SwiftUI、SwiftData、SwiftCharts，全套苹果最新框架。做一个背单词APP——首页、单词卡片3D翻转、左右滑动、练习测试、进度图表、设置页面。这个需求我太熟了，我们组之前做类似的产品，光需求评审就开了三天会。你告诉我一个AI模型十几分钟搞定？十多分钟，Xcode编译通过，卡片翻转流畅，间隔重复算法也实现了——就是根据你答对答错动态调整复习间隔那个。唯一没做的是设置页面，但追加一条指令就能补上。我现在的感受是……这对独立开发者来说也太香了。以前做一个MVP至少得一两周，现在十几分钟出个能跑的原型？而且是开源免费的。你想想，一个中小团队，不用买Claude的API，不用担心授权问题，直接拿GLM-4.7就能搞。甚至可以私有化部署。那你觉得它跟Claude Sonnet 4.5比，差距到底在哪？总不能说完全没差距吧。嗯，说实话，在特别复杂的多轮对话和超长上下文的工程项目里，顶级闭源模型可能还是稍微稳一些。但在单次代码生成的完整性和可运行性上，GLM-4.7真的已经非常接近了。就是说日常编程任务基本够用，极端场景可能还差一点点。差不多这个意思。但你想想这是开源模型啊，MIT协议，免费商用。这个性价比，简直离谱。确实。我觉得对我们做产品的人来说，最大的意义是——AI编程工具的选择又多了一个，而且是真正没有门槛的那种。对，开源生态就是这样，一个足够强的模型出来，会带动整个社区往前走。GLM-4.7可能就是那个推了一把的角色。

GLM-4.7深度实测：编程能力全面对标Claude Sonnet 4.5

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报