哎李博,你最近是不是又在疯狂刷Anthropic的更新?我看你朋友圈转了好几条。
哈哈被你发现了。没办法,这次更新确实有点东西,我忍不住。
行,那你给我讲讲呗。我就看到说Claude Code出了个Web版,但具体有啥不一样我还没细看。
这么说吧,以前你要用Claude写代码,得开终端或者IDE对吧?现在直接浏览器里就能干了,手机上都行。
等等,手机上写代码?这也太离谱了吧,谁会在手机上写代码啊。
不是你写,是你指挥AI写。你想啊,早上通勤的时候,掏出手机跟Claude说一句——帮我把那个Bug修了,它就在云端开始干活了。
到了办公室你再把进度同步到本地,接着审查代码就行。碎片时间全给你利用上了。
这个场景我懂了,就像我在钉钉上给开发提需求,只不过现在接需求的是AI。
对,但比这更狠。你可以同时开好几个任务,不同仓库并行跑。
并行?你是说我可以同时让它修Bug、加功能、重构代码,一起来?
没错!每个任务跑在独立的沙箱里,互不干扰。你就像个技术经理,同时调度好几个AI开发者。
好家伙,一个人变一个团队是吧。那安全性呢?它不会乱改我别的文件吧?
不会。沙箱就是个隔离环境,它只能在自己的容器里操作——克隆仓库、建分支、提交代码、发PR,全套都能干,但出不了那个安全边界。
嗯,这个设计还挺合理的。诶但你刚说还有个新模型?Haiku 4.5?
来了来了,这个才是我最想聊的。我跟你说一个数据你感受一下——SWE-bench得分73.3%。
这个分数什么概念?给我翻译翻译。
SWE-bench是普林斯顿搞的测试,用真实的GitHub Bug让AI去修。73.3%意味着它能自己解决将近四分之三的真实工程问题。
关键是——2024年初最好的模型得分还不到20%。一年多时间,从20%干到73%。
真的假的?!这进步也太夸张了吧。
更夸张的是价格。它只要Sonnet 4三分之一的成本,速度还快两倍多。
等会儿让我想想……那企业如果大规模用,成本能降多少?
60%到80%吧,看具体用量。一百万输入token才一美元。
行,你们搞技术的就喜欢报数字。我换个角度问——那Sonnet不就没人用了吗?
哎,你们产品经理就知道非此即彼。现在社区里流行的玩法是两个一起用。
一起用?怎么个一起法?
Sonnet 4.5当架构师,负责拆问题、做规划;Haiku 4.5当码农,负责具体写代码。就像你们公司技术总监画完架构图,下面的人去实现一样。
哦——用贵的模型做决策,便宜的模型做执行?
对!质量和成本的最优平衡。特别是大规模重构的时候,涉及几十个文件,这种分层协作效率特别高。
这不就是我们做产品时说的——把人力花在最有价值的决策环节嘛。模型也开始卷性价比了。
哈哈,万物皆可降本增效。
还有个东西我好奇,就是那个智能追问功能。我看到说Claude不会直接开始写,会先问你一堆问题?
对,这个我觉得特别有价值。你想,以前AI编程最大的坑是什么?你说一句模糊的需求,它自己脑补一堆然后写出来的东西完全不是你要的。
太有共鸣了!我们产品经理天天跟开发扯需求,最怕的就是对方理解偏了闷头写一周。
现在Claude会先追问。比如你说'给应用加个缓存',它会问你——加什么层级的?目标是啥?用Redis还是内存?针对哪些数据?
这不就是需求澄清嘛!相当于AI自己学会了需求工程。
没错,研究说40%到60%的软件缺陷都能追溯到需求阶段。把这步做好,后面返工率大幅下降。
所以整个串起来就是——手机上提需求,AI追问确认,云端并行开发,完了同步到本地审查。
对,一个完整的闭环。从需求澄清到代码交付,全链路覆盖了。
那我问个灵魂问题——开发者以后是不是就不用写代码了?
不是不写,是角色变了。从'写代码的人'变成'指导AI写代码的人'。你得懂架构、懂需求拆解、懂代码审查,但具体敲键盘这事儿……
交给AI了。
嗯。这不是工具升级,是开发范式的根本转变。
说实话我既兴奋又有点感慨。感觉这个行业变化真的太快了,去年还在讨论Copilot补全代码好不好用,今年就已经是AI自主开发了。
是啊。不过话说回来,能指挥好AI的人,反而更值钱了。这事儿你们产品经理应该最有体会。
哈哈,那我是不是该转行当AI编程指导师了?
得了吧,你先把你们那个需求文档写清楚再说。