今天AI圈又炸了,Anthropic一口气放了好几个大消息,我刷推刷到手酸。
对,Anthropic这波属于集中轰炸,咱们一条条聊。
先说个让我特别震撼的——Twitter上看到Firefox团队用Claude Mythos Preview做代码审计,四月份一个月修的安全漏洞,比之前十五个月加起来还多。
这个数据是真的夸张。你想啊,Firefox那种体量的开源项目,代码库巨大,安全债务积累了不知道多少年。
传统的模糊测试不是一直在做吗?怎么效果差这么多?
模糊测试本质上是在撞运气,靠随机输入去触发异常。但很多安全漏洞藏在业务逻辑的深层关联里,你不理解上下文是撞不出来的。
Mythos Preview厉害的地方在于它能做大规模代码库的导航和上下文关联分析,相当于一个能通读整个项目的安全专家。
所以本质上是从随机搜索变成了有理解力的定向排查。
没错,而且这给开源项目开了个新路子。你知道开源安全一直是老大难问题,志愿者精力有限,安全审计又特别烧人力。
确实,我之前做产品的时候就知道,安全团队永远是最缺人的。
现在AI能把这块短板补上,这可能是今年AI应用落地最实在的案例之一了。
说到Mythos Preview,Twitter上还有一条——它在METR的基准测试里,任务时间跨度超过第二名两倍以上。
这个指标特别关键。时间跨度长意味着模型能可靠地处理复杂的多步骤任务,不会中途迷路或者累积误差崩掉。
就像一个人能不能连续干八小时活儿还不出错。
对,而且这还只是早期快照,正式版可能更强。Anthropic把模型交给独立机构评估这个做法,我觉得值得点赞。
不过话说回来,Anthropic也不是全是好消息。B站上有个Theo的长视频,批评挺狠的。
看到了,说Cloud Code订阅有大概十五倍的补贴,两百美元能用两千七百美元的推理额度。
这对第三方开发者来说就是降维打击啊,别人怎么定价?
而且还禁止OAuth Token在外部工具里用,等于把开发者的自动化工作流直接掐断了。
这跟之前员工公开承诺的不一样吧?
对,所以Theo说这反映的是企业文化问题,嘴上开放生态,手上收紧入口。
典型的平台型打法,先把用户圈进来再说。行吧,还有个小事儿——Opus 4上线首日一堆Bug,不到二十四小时修完了。
大模型部署确实复杂,真实流量下的边缘情况太多了,先发布再修复已经是行业常态。
还有Anthropic喊出了More chips more Claude,要大规模扩算力。
推理端扩容能缓解限流,训练端扩容为下一代模型打基础,靠AWS和Trainium芯片撑着,算力军备竞赛还在加速。
聊点别的,B站上有条视频说AI焦虑的本质不是怕工具,是怕自己没目标,这观点我觉得挺戳人的。
说得好。工具型技能的价值半衰期越来越短,AI替代的是执行搬运的工作。
那什么替代不了?
规划搬运的能力——就是定义问题、设定目标。你得先知道要什么,AI才能帮你干活。
这不就是产品经理的核心能力嘛,我突然觉得自己还挺安全的。
你可拉倒吧,前提是你得真有想法,不是写PRD的那种想法。
得了吧你,最后快速过两条编程相关的——B站上有Codex零基础实战教程,十五种玩法速通,还有Trae接入智谱GLM5做全栈开发的测评。
Trae那个挺有意思,免费用GLM5做了个完整的学生管理系统,还分享了让AI先生成任务列表的提示词技巧。
还有Qwen3.7编程实测和Grok新模型联动Cursor的消息,六月份正式发布。
AI编程工具这块现在是真卷,每周都有新组合拳打出来。
好啦,今天信息量够大了,Anthropic一家就占了半壁江山。
总结一句:Mythos Preview在安全审计上的落地是今天最值得关注的,但Anthropic的开发者关系问题也值得警惕。
说得对,那咱们晚上见啦,拜拜!
晚上见!