李博!你看到Anthropic发新模型了吧,我昨天刷到的时候差点从椅子上跳起来。
哈哈你说Sonnet 4.5是吧,看到了看到了。我当天就上手试了。
等等,你已经试了?我还在排队呢……先说说,官方那个基准测试数据你怎么看?说是超越了Opus?
对,这个是真的有意思。你知道之前Opus是什么定位吗?那是200美金档的旗舰模型。现在Sonnet 4.5用20到100美金的订阅价格,直接把Opus按在地上摩擦。
性价比直接拉满了属于是。
不止。他们还说在编码任务上超过了GPT-5。虽然没明确说是跟GPT-5的哪个级别比,但这个声明本身就够大胆的。
但是吧,基准测试嘛……我们产品经理有句话叫'PPT都是美好的'。实际用起来到底行不行?
嘿,这次我还真服了。你知道我测了什么吗?我就给它一条指令,让它从零搭一个YOLO实时目标检测应用。
一条指令?就一条?
就一条。我跟它说:用YOLO 11做实时目标检测,只检测人,用OpenCV处理视频流,结果保存到本地。就这么多。
然后呢?它不会直接给你一坨跑不起来的代码吧?
这就是关键了。我先让它进Plan模式加Thinking模式,它自己规划了完整架构——导入依赖、初始化模型、设置摄像头、检测循环、过滤类别、绘制边界框、资源清理,逻辑清清楚楚。
然后切到执行模式,一次性生成完整Python脚本。我跑了一下python yolo.py,模型自动下载,摄像头打开,实时检测人员,视频同步保存。一气呵成。
等会儿……这也太离谱了吧。以前这种事我们团队至少得让工程师折腾半天,还得调各种依赖冲突。
所以我说这不是传统的AI辅助编码了。这是智能体编码,Agentic Coding。模型自己规划、执行、调试,形成闭环。
你给我解释一下这跟以前Copilot那种补全有啥本质区别?我感觉很多人还停留在那个认知上。
打个比方吧。以前的Copilot就像你写作文,它帮你接下一句。但智能体编码是你跟它说'帮我写一篇关于XX的论文',它自己列大纲、写初稿、检查逻辑、修改错误,全程不用你管。
懂了懂了。那SWE-bench就是专门测这个能力的?
对,SWE-bench从真实的GitHub Issue出发,让模型自己定位bug然后提交修复。这才是真正考验模型实战能力的赛道。
行,那你后来还做了什么?我猜你肯定不满足于一个命令行脚本。
你太了解我了。我直接跟它说,把这个检测管道扩展成Streamlit Web应用。
它自己知道加什么功能?
它自动加了启动停止按钮、置信度阈值滑块、实时人员计数、FPS显示,还集成了WebRTC做浏览器端视频流。我什么都没提,它全想到了。
这个技术选型能力……说实话比我见过的一些初级工程师强。
哈哈你们产品经理终于承认AI比人强了?
得了吧,我说的是初级!而且你别忘了,谁来写那条指令的?还不是得人来拆解需求。
这倒是真的。其实这就引出一个很重要的点——开发者的价值正在转移。
从写代码转向什么?
三个方向。第一是问题分解能力,怎么把复杂需求拆成清晰指令。第二是领域专业知识。第三是工具链整合。
拿计算机视觉来说,AI能秒生检测代码,但怎么设计训练策略、构建高质量数据集、处理标注规范和边界情况——这些还得靠人。目前没有AI能自动搞定数据标注全流程。
嗯,这个我有体感。我们之前做图像识别产品,光标注规范就讨论了两周,各种边界情况吵得不可开交。
对啊,类别平衡、数据增强、分布偏移这些问题,每一个都需要深度的统计学判断。这才是决定模型性能上限的关键。
还有一个我好奇的——Anthropic搞的那个MCP协议是什么?我看到连OpenAI和Google都支持了。
MCP你可以理解成AI工具调用领域的USB接口。以前每个AI应用接每个外部工具都得写定制代码,现在有了统一标准,工具方实现一次就能被所有AI调用。
所以Anthropic不只是在做模型,是在搭生态。SDK、VS Code扩展、MCP协议……这盘棋下得挺大的。
没错。而且他们还有个Research Preview叫Imagine with Claude,能让Agent自主工作二三十个小时,搭建操作系统、复刻Slack这种级别的项目。
二三十个小时?!这已经不是工具了,这是数字员工啊。
所以我说,现在是开发者适应这些工具的最佳时机。不是被替代,是把精力集中到更高价值的事情上。
嗯,说得好。最后一个问题——你觉得普通开发者现在应该追新模型吗?每隔几周就出一个。
我的建议是,找到适合自己的工具深度使用,比追逐每一个新发布更有价值。每个模型都有自己的脾性,深入用一个反而能发现很多非显而易见的最佳实践。
好,核心原则不变——理解底层原理、积累领域知识、培养系统性思维。这些AI替代不了。
对,这才是能力基石。工具会变,这些不会变。