AI热点风向标·06月17日晚间版

最近AI圈是真的炸，今天一天的信息量顶得上过去一周。我刷了一天各种群和社区，脑子都快不够用了。

确实，今天这个信息密度有点恐怖。GLM-5.2开源、DeepSeek疑似灰度V4、Cursor被收购，随便拎一条出来都够聊半天的。

那咱们就从最炸的开始聊。GLM-5.2，智谱这次是真的杀疯了。

先说结论，这次GLM-5.2在前端编码能力上，确实是目前开源模型里的天花板。这不是我说的，国外评测机构给的排名就是第一。

而且速度也很快，OpenRouter和Together这些平台第一时间就接入了，说明海外开发者社区对这个模型的认可度非常高。

等等，我想追问一下。说前端编码世界第一，这个评测的含金量到底怎么样？毕竟现在各种榜单满天飞，业内也有不少质疑。

好问题。这次比较有说服力的是社区实测，不光是跑benchmark。很多开发者拿实际项目去试，反馈前端代码生成的质量确实很能打。

而且智谱的定价策略也很激进，API价格打到8块和28块每百万token，配合CodingPen一倍消耗优惠延续到9月底。这是在用价格把生态砸出来。

这个定价我觉得很有意思。从产品角度看，智谱显然不是在卖模型赚钱，是在抢开发者生态。

对，这其实是开源模型竞争的新阶段。光开源不够，还得把使用门槛打到最低。你看现在国产大模型在编码赛道上，确实跟一年前完全不是一个量级了。

不过我有个疑虑。前端编码很强，但前端只是软件开发的一部分。后端、系统级编程这些呢？会不会有点偏科？

这个质疑是合理的。目前社区的讨论也主要集中在前端场景，其他方向的评测数据还不够充分。但话说回来，前端是最容易让普通用户感知到AI编码能力的领域。

所以你觉得智谱选前端作为突破口，是有策略考量的？

必然的。前端代码效果一眼可见，最容易传播。你让模型写个漂亮的网页出来，截图发社交媒体，传播效率比后端高十倍。

行，这个话题先到这。接下来聊个更劲爆的——DeepSeek疑似灰度V4模型。

这个我一直在关注。有人发现DeepSeek网页版的快速模式出现了新的思维链形式，跟之前的V3明显不一样。社区基本在猜这就是V4在灰度测试。

灰度测试的意思就是，只有一部分用户能随机触发到新模型？

对，这是互联网产品的标准做法。先让小部分流量跑新模型，观察效果和稳定性，没问题再全量上线。

这个时间点其实很微妙。路透社刚确认DeepSeek完成了超过70亿美元的融资，然后新模型就开始灰度了。

而且还有一个数据特别值得注意。Vercel的数据显示，DeepSeek的token调用量已经超过OpenAI了，但成本只占总支出的百分之一。

你想想这意味着什么？用量比OpenAI大，成本只有百分之一。这个效率差距是碾压级的。

但这个百分之一的成本数据，是不是因为DeepSeek定价本身就低？并不一定代表技术效率更高？

你说的没错，定价低和推理效率高是两回事。但DeepSeek从V2开始就在推理成本优化上做得非常激进，MoE架构的效率确实领先。低价不是亏本倾销，是真有技术支撑的。

好吧，这点我服。那如果V4真的全量上线，你觉得对行业格局会有什么影响？

坦白说，现在信息太少，没法下判断。但如果V4在推理能力上再跨一个台阶，同时保持成本优势，那对OpenAI的压力会非常大。

好，接下来换个角度。今天还有个话题我觉得特别值得聊——AI不听话这件事。

这个话题看着像吐槽，其实背后是个很深的问题。AI不听指令，到底是能力不够、不想听、还是它其实听了但表现出来的结果跟你预期不一样？

对，这三种情况完全不同。比如有人让AI改个代码bug，AI改了一堆别的地方，但就是没改你说的那个。这算哪种？

这个典型属于第三种——它听了，但它对你指令的理解跟你想的不一样。本质上是instruction following的对齐问题。

现在的大模型在复杂指令的理解上，其实还有很大的提升空间。你以为你说得很清楚了，但模型的解读可能完全不同。

所以这其实也跟prompt engineering有关？用户这边也有责任？

两边都有。但我觉得长期来看，不应该把责任推给用户。好的AI产品应该能理解模糊的、不完整的指令，而不是要求用户写出完美的prompt。

这点我非常同意。从产品角度来说，如果用户需要学一门叫prompt engineering的技能才能用好你的产品，那说明产品本身还不够好。

没错。不过话说回来，当前阶段prompt能力确实能显著提升使用效果，这是现实。理想和现实之间还有差距。

最后再聊一个跟开发者关系很大的话题。DeepSeek开源了一个终端原生的编程Agent。

这个东西我觉得意义比很多人想的要大。终端原生意味着它直接在命令行里工作，不需要IDE插件，不需要图形界面。

那跟现在市面上那些编程助手比，比如Cursor这类，定位有什么不同？

完全不同的路线。Cursor是IDE级别的，重交互、重界面。DeepSeek这个是CLI级别的，轻量、灵活，更适合嵌入到自动化工作流里。

你可以把它想象成一个会写代码的命令行工具。对于喜欢用终端的硬核开发者来说，这个东西的吸引力非常大。

而且它是开源的，意味着社区可以自己改、自己扩展。

对，这才是关键。开源意味着你可以把它接到自己的模型上，接到自己的工具链里。自由度比任何商业产品都高。

说到这我还想提一嘴，今天还有人在讨论AI自动化测试的实践。就是说写完代码别自己debug了，直接让AI跑自动化测试。

这个思路其实跟测试驱动开发的理念是一脉相承的。只不过现在AI把写测试和跑测试这两步都能自动化了。

你觉得这个方向靠谱吗？AI写的测试能覆盖到关键场景吗？

现阶段来说，AI写的测试覆盖率其实还不错，尤其是常规场景。但边界情况和业务逻辑相关的测试，还是需要人来把关。

不过方向是对的。先让AI写一版测试，人再补充和修正，效率比从零开始写高太多了。

好，今天的信息量确实大。简单总结一下：GLM-5.2开源，前端编码能力很能打；DeepSeek疑似灰度V4，融资超70亿美元；AI不听话的本质是对齐问题；终端原生编程Agent开了一条新路线。

今天最大的感受就是，国产大模型在编码这个赛道上，已经不是追赶者了，某些方向上甚至在领跑。这个变化比什么榜单排名都重要。

同意。好了，今天就聊到这，咱们明天见。

AI热点风向标·06月17日晚间版

相关推荐

GitHub Agent HQ发布：AI编程工具进入平台化竞争时代

Gemini 3.5 Flash在GDPval基准上实现巨大飞跃

Google Gemini Antigravity周配额三倍提升，AI编程不再受限