李博!你最近有没有看智谱那个新模型?我朋友圈都刷屏了。
GLM-4.7嘛,我前两天就开始玩了。你说实话,我一开始是带着怀疑态度去的。
哈哈,你这人每次都这样,先怀疑再真香。这次呢?
这次……确实有点真香。先说结论吧——这个模型的编程能力,我觉得已经能跟Claude Sonnet 4.5正面打了。
等会儿,这话说得也太大了吧?它不是开源模型吗?358B参数的MOE架构,我看了一眼就觉得挺猛的,但跟闭源顶级模型比……
你知道MOE的精髓在哪吗?它虽然总参数3580亿,但推理的时候只激活一部分专家网络。你可以理解成一个大公司,几百号人,但每个项目只抽十几个最合适的人来干活。
哦这个比喻好,就是效率高、成本低。
对,DeepSeek V3也是这个路线。而且GLM-4.7用的是MIT协议,这个才是真正的大招。
MIT协议我知道,最宽松的那种对吧?就是你随便用,商用也行,改了也不用公开代码。
没错。你对比一下Meta的Llama,月活超7亿还得额外授权。GLM-4.7直接说了,你拿去随便造,我不管。对中小团队来说这太友好了。
行,协议确实香。但我更关心的是——它真的能写代码吗?官方benchmark我看了,数学95.7分,代码、推理都说超过DeepSeek V3.2和Claude Sonnet 4.5。但你也知道benchmark这东西……
你想说过拟合的问题对吧?
对啊,训练的时候见过类似题目,分数好看但实际不一定行。
所以我才自己跑了一堆实测。我跟你说第一个测试的结果,我自己都愣了。
什么测试?
就一句话——'用SVG生成模拟太阳系的动画'。它直接给我输出了八大行星绑定轨道公转,月球绕地球转,土星还带光环。一句prompt,零修改直接跑通。
真的假的?!土星光环都有?这细节也太到位了吧。
我当时的反应跟你一模一样。然后我就不信邪了,加难度——让它做一个太空主题的冒泡排序可视化,12颗小行星随机排列,一艘指挥舰逐个比较交换,还要实时显示状态。
这个有意思,又考算法又考动画设计。
全程零报错,动画流畅,界面还显示'正在比较'、'正在交换'。我说实话,这种跨领域整合能力,放半年前开源模型根本做不到。
那你有没有试更变态的?
你太了解我了。我让它用纯HTML5 Canvas写一个3D恐龙狩猎游戏——皮卡车、机枪、鼠标瞄准、键盘移动、侏罗纪环境,全要。
等等,纯Canvas做3D?不用Three.js?那不是得手动处理透视变换、深度排序这些?
你们产品经理什么时候懂这么多了?
得了吧,我之前做过一个WebGL相关的需求好吗。
哈哈好吧。对,纯Canvas做3D确实难度拉满,透视投影、碰撞检测、AI行为系统全得自己写。但GLM-4.7一次生成就跑通了——恐龙被打还会逃跑,远处有雾气山脉,氛围感很足。
这就不只是写代码了,这是有审美的。我做产品最怕的就是工程师说'功能实现了但是丑'。
对,它确实在视觉表现上也花了心思。然后我又测了浏览器自动化——通过MCP协议让它操控Chrome,访问博客、点文章、提取内容、改写成推文。
MCP就是Anthropic搞的那个工具调用协议对吧?让模型能像调API一样操控外部工具。
对。这个测试的关键不是代码能力,而是Agentic能力——模型得自己规划步骤、调用工具、根据反馈调整。GLM-4.7全流程跑下来又快又准,输出的推文还自带emoji和话题标签。
懂了懂了,这不就是我们说的AI Agent嘛。那我问个更狠的——移动端能不能搞?
你这个问题问得好,因为最后一个测试就是iOS原生APP开发。
不是吧?!iOS原生?SwiftUI那套?
iOS 17、Swift 5.9、SwiftUI、SwiftData、SwiftCharts,全套苹果最新框架。做一个背单词APP——首页、单词卡片3D翻转、左右滑动、练习测试、进度图表、设置页面。
这个需求我太熟了,我们组之前做类似的产品,光需求评审就开了三天会。你告诉我一个AI模型十几分钟搞定?
十多分钟,Xcode编译通过,卡片翻转流畅,间隔重复算法也实现了——就是根据你答对答错动态调整复习间隔那个。唯一没做的是设置页面,但追加一条指令就能补上。
我现在的感受是……这对独立开发者来说也太香了。以前做一个MVP至少得一两周,现在十几分钟出个能跑的原型?
而且是开源免费的。你想想,一个中小团队,不用买Claude的API,不用担心授权问题,直接拿GLM-4.7就能搞。甚至可以私有化部署。
那你觉得它跟Claude Sonnet 4.5比,差距到底在哪?总不能说完全没差距吧。
嗯,说实话,在特别复杂的多轮对话和超长上下文的工程项目里,顶级闭源模型可能还是稍微稳一些。但在单次代码生成的完整性和可运行性上,GLM-4.7真的已经非常接近了。
就是说日常编程任务基本够用,极端场景可能还差一点点。
差不多这个意思。但你想想这是开源模型啊,MIT协议,免费商用。这个性价比,简直离谱。
确实。我觉得对我们做产品的人来说,最大的意义是——AI编程工具的选择又多了一个,而且是真正没有门槛的那种。
对,开源生态就是这样,一个足够强的模型出来,会带动整个社区往前走。GLM-4.7可能就是那个推了一把的角色。