播客频道 | 实测OpenAI Codex Computer Use：AI自动操控Mac桌面全流程体验

今天聊一个让我特别兴奋的东西——OpenAI的Codex最近上线了一个叫Computer Use的功能，简单说就是AI可以直接操控你Mac上的应用了。移动鼠标、点击按钮、打字，全都行。而且最关键的是，它干活的时候你还能继续用自己的电脑，不耽误事儿。对，这个其实是Computer Use这个赛道里一个非常重要的突破。你知道去年Anthropic的Claude就已经做了类似的事情，Google、微软也都在跟进。但之前所有方案都有两个特别大的痛点：一个是慢，因为它要反复截图、识别、再操作，一个循环下来就很耗时；另一个是独占——AI在干活的时候，你的鼠标键盘就被接管了，你只能干看着。OpenAI这次就是冲着这两个问题来的。嗯，先说说设置过程吧，我看演示里好像特别简单？对，极简。它弹一个权限请求窗口，你点Allow，然后系统会自动跳到辅助功能设置界面，你把Codex拖进去就行了。两次拖拽，搞定。之后它就在Dock栏里待命，随时可以用。这个onboarding设计确实很用心，非技术用户也完全没门槛。演示里有一个场景我印象特别深——它同时操控了三个应用。一边在UTM里创建Mac虚拟机，一边在Spotify放音乐，还在提醒事项里加了一条提醒。这三个任务是并行跑的。没错，而且这背后最核心的技术亮点就是那个虚拟光标。你想啊，传统方案不管是Claude还是大多数RPA工具，它们都是模拟系统级的鼠标键盘事件，也就是说AI在动的就是你那个真实的光标。你的鼠标会被抢走，屏幕上看到光标在自己乱飞。对，那种感觉就像有个人远程控制了你的电脑。哈哈，完全是。但Codex不一样，它用的是macOS辅助功能API里的AXUIElement接口，直接在API层面对目标界面元素执行操作——比如点击某个按钮，它不需要真的把光标移过去再点，而是直接告诉系统'我要点这个元素'。所以AI的操作和你的鼠标键盘是在完全独立的通道上并行的。你该干嘛干嘛，它在后台默默帮你把事情办了。这个思路确实巧妙。等于说它不是在模拟人类操作电脑，而是用一种更底层的方式直接跟应用对话。那速度方面呢？我看演示里提到了一个叫Spark的模型，说是能达到'超人类速度'？这就要说到另一个很聪明的设计了。传统Computer Use完全靠截图来理解界面，对吧？截一张图，用视觉模型去分析像素，搞清楚哪里是按钮哪里是文本框。但Codex团队换了个思路——它利用macOS的辅助功能框架，也就是Accessibility Framework。这个框架本来是给视障用户用的，像VoiceOver屏幕阅读器就是基于它工作的。就是那个无障碍功能？对。这个框架要求每个应用把自己的界面元素——按钮、文本框、菜单、滑块——以结构化的语义树形式暴露给系统。每个元素都有角色、标签、值、坐标这些信息。Codex直接读这棵树就行了，拿到的是精确的结构化数据，而不是需要视觉模型去解析的像素。哦，这就好比一个方案是拿着照片去找路，另一个方案是直接拿到了地图。这个比喻太好了，就是这个意思。而且因为不强制依赖图像输入了，它就可以用Spark这种轻量级的纯文本模型，跳过视觉编码器的处理开销。每一步操作的决策时间从几百毫秒压缩到几十毫秒。演示里发一条iMessage——打开应用、找联系人、输入文字、发送——几秒钟就完了。而且它还能'看到'滚动区域之外的内容，因为语义树里包含了整个界面的信息，不只是当前屏幕上显示的那些。说到这儿我就想问安全问题了。一个AI能操控你整台电脑，这听着就让人有点紧张。万一它去翻你的银行App怎么办？这个Codex团队想得很清楚。他们用的是逐应用授权机制，有点像手机上的权限管理。Codex第一次要访问某个应用时，必须先问你要许可。你授权了哪个应用，它才能看到和操作哪个应用。没授权的应用对它来说完全不可见、不可交互。它不会录你的整个桌面，也不会去碰你的文件系统。这跟Claude那种方案差别挺大的。Claude好像是在一个Docker容器里跑完整桌面环境，AI能看到里面所有东西。对，Claude和大多数RPA工具都是要么全部授权要么完全不用，粒度太粗了。Codex这个设计从技术上也很优雅——macOS的辅助功能API本身就支持按进程查询界面元素树，所以Codex只需要过滤掉未授权应用的进程ID就行了，不需要什么复杂的沙箱机制。你可以放心地把开发工具、生产力应用授权给它，同时银行客户端、密码管理器这些敏感应用完全隔离。还有一个我觉得很值得聊的点——他们把Computer Use的能力从专用模型迁移到了主线GPT模型里。这意味着什么？这个其实反映了AI行业一个很重要的趋势，叫'能力收敛'。早期他们有一个专门的CUA模型，就是Computer-Using Agent，在标准GPT基础上用大量GUI交互数据微调出来的。但维护一个独立模型成本高、部署复杂，而且跟主线模型的迭代会脱节。现在这些能力直接内置到主线模型里了，代码生成、工具调用、界面操作、多模态理解，全都是同一个模型的内置能力。对开发者来说最直接的好处是——你通过API调用标准模型，未来就能直接获得Computer Use能力，不需要额外集成。所以Computer Use以后可能就是AI模型的标配了，不是什么特殊技能。我觉得是的。就像现在你不会觉得'能理解图片'是一个多特殊的功能一样，以后'能操作GUI'也会变成基础能力。最后说说未来吧。他们的工程师说目标是让AI操作电脑的速度达到人类的2倍、5倍甚至10倍。而且Windows版本也在开发中了。嗯，如果真能做到10倍速，那使用场景就完全不一样了。你想想那种需要在五六个应用之间来回切换、折腾好几个小时的复杂工作流，交给AI可能十几分钟就搞定了。其实从更大的视角看，Computer Use本质上是在现有软件生态之上加了一个新的交互抽象层——你不需要学每个应用怎么用，用自然语言说一句话，AI就在GUI层面帮你搞定了。确实，这可能是人机交互范式的一次真正转变。以前我们适应软件，以后软件来适应我们。好，今天关于Codex Computer Use就聊到这儿。我个人最期待的是那个虚拟光标加Spark模型的组合——又快又不打扰人，这才是AI助手该有的样子。

实测OpenAI Codex Computer Use：AI自动操控Mac桌面全流程体验

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报