欢迎回来,今天咱们前沿论文解读专栏聊点硬核的。这周素材我翻了好几遍,发现有个特别有意思的线索。
你说的是Google Antigravity那几篇吧?我也注意到了,这周Google的动作密度有点反常。
对,而且还有Anthropic那边Claude Opus 4.8的大新闻。我觉得这两件事放在一起看,其实指向同一个问题。
什么问题?
AI到底需要一个什么样的底座?是更强的模型,还是更新的系统?咱们今天就围绕这个聊。
好问题。我先抛个结论——Google做Antigravity操作系统这件事,本质上是在赌AI Agent的未来形态。
等等,Google已经有Android、ChromeOS、还有那个一直半死不活的Fuchsia,为什么还要再做一个?
因为那些系统全是"前AI时代"设计的。你想,Android的核心架构是围绕App来的,一个个沙盒隔离。但AI Agent需要什么?它需要跨应用调度、需要系统级权限、需要实时感知上下文。
这我有体感。我们做产品的时候就发现,想让AI助手帮用户跨App完成任务,权限管理简直是噩梦。
对,现有操作系统的权限模型是为人设计的,不是为Agent设计的。你让一个AI去帮你订机票、查日历、发邮件,它得跳三个App,每个都要单独授权。
所以Antigravity的思路是从底层重构这套逻辑?
大概率是。而且你注意到没有,他们同步发布了SDK,这说明不是实验室玩具,是真的要建生态。
SDK这个事我特别想聊。Google的文章里提到它是Product级别发布,不是Research。这个区别很大。
非常大。Research级别的东西你看看论文就行了,Product级别意味着有文档、有API、有稳定性承诺。Google是认真的。
不过说实话,我对"反重力"这个名字一开始是有点困惑的。这也太中二了吧。
得了吧,Google起名一向这样。但你仔细想,反重力的隐喻其实挺贴切的——让计算摆脱硬件束缚,让应用摆脱设备边界。
行,那我们把视角切到Anthropic这边。Claude Opus 4.8这次的数据是真的炸裂,谎报率和偷懒率双双归零。
这个我必须说,如果数据是真的,那这是大语言模型发展史上的分水岭事件。注意我说的是"如果"。
你怀疑数据有水分?
不是怀疑造假,而是评测方法论的问题。谎报率0%是在什么测试集上测的?覆盖了多少领域?边界条件怎么定义的?这些都需要看细节。
这倒是。不过从产品角度,哪怕只是在主流场景下做到接近零幻觉,对用户信任的提升也是巨大的。
完全同意。而且你把这件事和Google做新OS放在一起看,就会发现一个更大的图景。
什么图景?
AI Agent要真正落地,需要两个条件同时满足。第一,模型本身足够可靠,不会胡说八道。第二,系统层面有原生支持,不用在旧架构上缝缝补补。
所以Anthropic在解决第一个问题,Google在解决第二个问题。
Bingo。而且编程能力断层第一这件事也很关键。ELO 1890,比GPT-5.5高121分,这不是小优势。
对开发者来说意味着什么?
意味着AI写代码这件事正在从"辅助"变成"主力"。如果模型既不撒谎又不偷懒,编码能力还断层领先,那很多初级开发工作真的可以全权交给它了。
这和新操作系统也有关系。如果未来的OS是AI原生的,那给这个OS写应用的可能不是人类开发者,而是AI Agent本身。
你这个推演我觉得非常到位。AI写代码给AI操作系统用,形成闭环。这可能就是Google和Anthropic各自在押注的终局。
不过我有个担心。Google已经有那么多操作系统了,内部资源怎么分配?Fuchsia的前车之鉴还在呢。
这确实是风险。但Antigravity团队的定位更像X实验室那种登月项目,和Android团队应该是平行关系,不会直接抢资源。
好,最后帮大家总结一下今天的核心观点。这周两个大事件看似独立,其实指向同一个方向。
对。Google在做AI原生的系统底座,Anthropic在做可信赖的模型能力。两条路最终会在AI Agent这个交汇点相遇。
留个思考题给大家:当操作系统为AI而生、模型又足够可靠的时候,人类开发者的角色会变成什么?
这个问题值得每个技术人认真想想。我们下期接着聊。