今天聊一个让我特别兴奋的东西——OpenAI的Codex最近上线了一个叫Computer Use的功能,简单说就是AI可以直接操控你Mac上的应用了。移动鼠标、点击按钮、打字,全都行。而且最关键的是,它干活的时候你还能继续用自己的电脑,不耽误事儿。
对,这个其实是Computer Use这个赛道里一个非常重要的突破。你知道去年Anthropic的Claude就已经做了类似的事情,Google、微软也都在跟进。但之前所有方案都有两个特别大的痛点:一个是慢,因为它要反复截图、识别、再操作,一个循环下来就很耗时;另一个是独占——AI在干活的时候,你的鼠标键盘就被接管了,你只能干看着。OpenAI这次就是冲着这两个问题来的。
嗯,先说说设置过程吧,我看演示里好像特别简单?
对,极简。它弹一个权限请求窗口,你点Allow,然后系统会自动跳到辅助功能设置界面,你把Codex拖进去就行了。两次拖拽,搞定。之后它就在Dock栏里待命,随时可以用。这个onboarding设计确实很用心,非技术用户也完全没门槛。
演示里有一个场景我印象特别深——它同时操控了三个应用。一边在UTM里创建Mac虚拟机,一边在Spotify放音乐,还在提醒事项里加了一条提醒。这三个任务是并行跑的。
没错,而且这背后最核心的技术亮点就是那个虚拟光标。你想啊,传统方案不管是Claude还是大多数RPA工具,它们都是模拟系统级的鼠标键盘事件,也就是说AI在动的就是你那个真实的光标。你的鼠标会被抢走,屏幕上看到光标在自己乱飞。
对,那种感觉就像有个人远程控制了你的电脑。
哈哈,完全是。但Codex不一样,它用的是macOS辅助功能API里的AXUIElement接口,直接在API层面对目标界面元素执行操作——比如点击某个按钮,它不需要真的把光标移过去再点,而是直接告诉系统'我要点这个元素'。所以AI的操作和你的鼠标键盘是在完全独立的通道上并行的。你该干嘛干嘛,它在后台默默帮你把事情办了。
这个思路确实巧妙。等于说它不是在模拟人类操作电脑,而是用一种更底层的方式直接跟应用对话。那速度方面呢?我看演示里提到了一个叫Spark的模型,说是能达到'超人类速度'?
这就要说到另一个很聪明的设计了。传统Computer Use完全靠截图来理解界面,对吧?截一张图,用视觉模型去分析像素,搞清楚哪里是按钮哪里是文本框。但Codex团队换了个思路——它利用macOS的辅助功能框架,也就是Accessibility Framework。这个框架本来是给视障用户用的,像VoiceOver屏幕阅读器就是基于它工作的。
就是那个无障碍功能?
对。这个框架要求每个应用把自己的界面元素——按钮、文本框、菜单、滑块——以结构化的语义树形式暴露给系统。每个元素都有角色、标签、值、坐标这些信息。Codex直接读这棵树就行了,拿到的是精确的结构化数据,而不是需要视觉模型去解析的像素。
哦,这就好比一个方案是拿着照片去找路,另一个方案是直接拿到了地图。
这个比喻太好了,就是这个意思。而且因为不强制依赖图像输入了,它就可以用Spark这种轻量级的纯文本模型,跳过视觉编码器的处理开销。每一步操作的决策时间从几百毫秒压缩到几十毫秒。演示里发一条iMessage——打开应用、找联系人、输入文字、发送——几秒钟就完了。而且它还能'看到'滚动区域之外的内容,因为语义树里包含了整个界面的信息,不只是当前屏幕上显示的那些。
说到这儿我就想问安全问题了。一个AI能操控你整台电脑,这听着就让人有点紧张。万一它去翻你的银行App怎么办?
这个Codex团队想得很清楚。他们用的是逐应用授权机制,有点像手机上的权限管理。Codex第一次要访问某个应用时,必须先问你要许可。你授权了哪个应用,它才能看到和操作哪个应用。没授权的应用对它来说完全不可见、不可交互。它不会录你的整个桌面,也不会去碰你的文件系统。
这跟Claude那种方案差别挺大的。Claude好像是在一个Docker容器里跑完整桌面环境,AI能看到里面所有东西。
对,Claude和大多数RPA工具都是要么全部授权要么完全不用,粒度太粗了。Codex这个设计从技术上也很优雅——macOS的辅助功能API本身就支持按进程查询界面元素树,所以Codex只需要过滤掉未授权应用的进程ID就行了,不需要什么复杂的沙箱机制。你可以放心地把开发工具、生产力应用授权给它,同时银行客户端、密码管理器这些敏感应用完全隔离。
还有一个我觉得很值得聊的点——他们把Computer Use的能力从专用模型迁移到了主线GPT模型里。这意味着什么?
这个其实反映了AI行业一个很重要的趋势,叫'能力收敛'。早期他们有一个专门的CUA模型,就是Computer-Using Agent,在标准GPT基础上用大量GUI交互数据微调出来的。但维护一个独立模型成本高、部署复杂,而且跟主线模型的迭代会脱节。现在这些能力直接内置到主线模型里了,代码生成、工具调用、界面操作、多模态理解,全都是同一个模型的内置能力。对开发者来说最直接的好处是——你通过API调用标准模型,未来就能直接获得Computer Use能力,不需要额外集成。
所以Computer Use以后可能就是AI模型的标配了,不是什么特殊技能。
我觉得是的。就像现在你不会觉得'能理解图片'是一个多特殊的功能一样,以后'能操作GUI'也会变成基础能力。
最后说说未来吧。他们的工程师说目标是让AI操作电脑的速度达到人类的2倍、5倍甚至10倍。而且Windows版本也在开发中了。
嗯,如果真能做到10倍速,那使用场景就完全不一样了。你想想那种需要在五六个应用之间来回切换、折腾好几个小时的复杂工作流,交给AI可能十几分钟就搞定了。其实从更大的视角看,Computer Use本质上是在现有软件生态之上加了一个新的交互抽象层——你不需要学每个应用怎么用,用自然语言说一句话,AI就在GUI层面帮你搞定了。
确实,这可能是人机交互范式的一次真正转变。以前我们适应软件,以后软件来适应我们。好,今天关于Codex Computer Use就聊到这儿。我个人最期待的是那个虚拟光标加Spark模型的组合——又快又不打扰人,这才是AI助手该有的样子。