AI热点风向标·06月17日晚间版
AI热点风向标·06月17日晚间版
06月17日晚间版 AI热门话题深度讨论,5个热点
06月17日晚间版 AI热门话题深度讨论,5个热点
最近AI圈是真的炸,今天一天的信息量顶得上过去一周。我刷了一天各种群和社区,脑子都快不够用了。
确实,今天这个信息密度有点恐怖。GLM-5.2开源、DeepSeek疑似灰度V4、Cursor被收购,随便拎一条出来都够聊半天的。
那咱们就从最炸的开始聊。GLM-5.2,智谱这次是真的杀疯了。
先说结论,这次GLM-5.2在前端编码能力上,确实是目前开源模型里的天花板。这不是我说的,国外评测机构给的排名就是第一。
而且速度也很快,OpenRouter和Together这些平台第一时间就接入了,说明海外开发者社区对这个模型的认可度非常高。
等等,我想追问一下。说前端编码世界第一,这个评测的含金量到底怎么样?毕竟现在各种榜单满天飞,业内也有不少质疑。
好问题。这次比较有说服力的是社区实测,不光是跑benchmark。很多开发者拿实际项目去试,反馈前端代码生成的质量确实很能打。
而且智谱的定价策略也很激进,API价格打到8块和28块每百万token,配合CodingPen一倍消耗优惠延续到9月底。这是在用价格把生态砸出来。
这个定价我觉得很有意思。从产品角度看,智谱显然不是在卖模型赚钱,是在抢开发者生态。
对,这其实是开源模型竞争的新阶段。光开源不够,还得把使用门槛打到最低。你看现在国产大模型在编码赛道上,确实跟一年前完全不是一个量级了。
不过我有个疑虑。前端编码很强,但前端只是软件开发的一部分。后端、系统级编程这些呢?会不会有点偏科?
这个质疑是合理的。目前社区的讨论也主要集中在前端场景,其他方向的评测数据还不够充分。但话说回来,前端是最容易让普通用户感知到AI编码能力的领域。
所以你觉得智谱选前端作为突破口,是有策略考量的?
必然的。前端代码效果一眼可见,最容易传播。你让模型写个漂亮的网页出来,截图发社交媒体,传播效率比后端高十倍。
行,这个话题先到这。接下来聊个更劲爆的——DeepSeek疑似灰度V4模型。
这个我一直在关注。有人发现DeepSeek网页版的快速模式出现了新的思维链形式,跟之前的V3明显不一样。社区基本在猜这就是V4在灰度测试。
灰度测试的意思就是,只有一部分用户能随机触发到新模型?
对,这是互联网产品的标准做法。先让小部分流量跑新模型,观察效果和稳定性,没问题再全量上线。
这个时间点其实很微妙。路透社刚确认DeepSeek完成了超过70亿美元的融资,然后新模型就开始灰度了。
而且还有一个数据特别值得注意。Vercel的数据显示,DeepSeek的token调用量已经超过OpenAI了,但成本只占总支出的百分之一。
你想想这意味着什么?用量比OpenAI大,成本只有百分之一。这个效率差距是碾压级的。
但这个百分之一的成本数据,是不是因为DeepSeek定价本身就低?并不一定代表技术效率更高?
你说的没错,定价低和推理效率高是两回事。但DeepSeek从V2开始就在推理成本优化上做得非常激进,MoE架构的效率确实领先。低价不是亏本倾销,是真有技术支撑的。
好吧,这点我服。那如果V4真的全量上线,你觉得对行业格局会有什么影响?
坦白说,现在信息太少,没法下判断。但如果V4在推理能力上再跨一个台阶,同时保持成本优势,那对OpenAI的压力会非常大。
好,接下来换个角度。今天还有个话题我觉得特别值得聊——AI不听话这件事。
这个话题看着像吐槽,其实背后是个很深的问题。AI不听指令,到底是能力不够、不想听、还是它其实听了但表现出来的结果跟你预期不一样?
对,这三种情况完全不同。比如有人让AI改个代码bug,AI改了一堆别的地方,但就是没改你说的那个。这算哪种?
这个典型属于第三种——它听了,但它对你指令的理解跟你想的不一样。本质上是instruction following的对齐问题。
现在的大模型在复杂指令的理解上,其实还有很大的提升空间。你以为你说得很清楚了,但模型的解读可能完全不同。
所以这其实也跟prompt engineering有关?用户这边也有责任?
两边都有。但我觉得长期来看,不应该把责任推给用户。好的AI产品应该能理解模糊的、不完整的指令,而不是要求用户写出完美的prompt。
这点我非常同意。从产品角度来说,如果用户需要学一门叫prompt engineering的技能才能用好你的产品,那说明产品本身还不够好。
没错。不过话说回来,当前阶段prompt能力确实能显著提升使用效果,这是现实。理想和现实之间还有差距。
最后再聊一个跟开发者关系很大的话题。DeepSeek开源了一个终端原生的编程Agent。
这个东西我觉得意义比很多人想的要大。终端原生意味着它直接在命令行里工作,不需要IDE插件,不需要图形界面。
那跟现在市面上那些编程助手比,比如Cursor这类,定位有什么不同?
完全不同的路线。Cursor是IDE级别的,重交互、重界面。DeepSeek这个是CLI级别的,轻量、灵活,更适合嵌入到自动化工作流里。
你可以把它想象成一个会写代码的命令行工具。对于喜欢用终端的硬核开发者来说,这个东西的吸引力非常大。
而且它是开源的,意味着社区可以自己改、自己扩展。
对,这才是关键。开源意味着你可以把它接到自己的模型上,接到自己的工具链里。自由度比任何商业产品都高。
说到这我还想提一嘴,今天还有人在讨论AI自动化测试的实践。就是说写完代码别自己debug了,直接让AI跑自动化测试。
这个思路其实跟测试驱动开发的理念是一脉相承的。只不过现在AI把写测试和跑测试这两步都能自动化了。
你觉得这个方向靠谱吗?AI写的测试能覆盖到关键场景吗?
现阶段来说,AI写的测试覆盖率其实还不错,尤其是常规场景。但边界情况和业务逻辑相关的测试,还是需要人来把关。
不过方向是对的。先让AI写一版测试,人再补充和修正,效率比从零开始写高太多了。
好,今天的信息量确实大。简单总结一下:GLM-5.2开源,前端编码能力很能打;DeepSeek疑似灰度V4,融资超70亿美元;AI不听话的本质是对齐问题;终端原生编程Agent开了一条新路线。
今天最大的感受就是,国产大模型在编码这个赛道上,已经不是追赶者了,某些方向上甚至在领跑。这个变化比什么榜单排名都重要。
同意。好了,今天就聊到这,咱们明天见。
相关推荐
科技前沿GitHub Agent HQ发布:AI编程工具进入平台化竞争时代
GitHub Universe大会发布Agent HQ平台,统一管理编码Agent,Copilot升级支持多模型集成。同期OpenAI完成重组,Anthropic新模型测试,NVIDIA开源系列AI模型,AI编程工具格局加速整合。
科技前沿Gemini 3.5 Flash在GDPval基准上实现巨大飞跃
Google Gemini 3.5 Flash在GDPval基准测试中超越Gemini 3.1 Pro,轻量级Flash模型借助后训练技术逼近前沿水平,重新定义性能与成本的平衡点,为AI应用开发者带来重大利好。
科技前沿Google Gemini Antigravity周配额三倍提升,AI编程不再受限
Google Gemini团队再次将Antigravity周配额提升至三倍,继日配额提升后再次加码。本文解析此次配额调整对开发者的实际影响,以及在AI编程助手竞争格局中的战略意义。