实测OpenAI Codex Computer Use:AI自动操控Mac桌面全流程体验

OpenAI Codex推出Computer Use功能,可用虚拟光标自主操控Mac应用且不打断用户。
OpenAI为Codex推出Computer Use功能,让AI能像人类一样操控Mac上的任何应用。其核心创新在于:使用独立虚拟光标实现人机并行操作不互斥;利用macOS辅助功能框架提取结构化界面信息,配合轻量级Spark模型实现超人类操作速度;采用逐应用授权的细粒度安全机制保障隐私。该能力已从专用模型整合到主线GPT模型,开发者可通过API调用。
OpenAI的Codex正在从编程助手进化为真正的「电脑操作员」。最新推出的Computer Use功能让Codex能够像人类一样操控Mac上的任何应用——移动鼠标、点击按钮、输入文字,而且全程不打断你的工作流。OpenAI工程师Romain和Ari在最新演示中完整展示了这一功能的实际表现,从虚拟机创建到Spotify播放音乐,再到发送iMessage消息,Codex的表现令人印象深刻。
Computer Use(计算机使用)是AI领域近两年最受关注的能力方向之一。2024年10月,Anthropic率先发布了Claude的Computer Use功能,允许AI通过截图识别和模拟鼠标键盘操作来控制桌面应用,随后Google DeepMind的Project Mariner、微软的UFO等项目也纷纷跟进。这一能力的核心意义在于:它让AI不再局限于文本对话或API调用,而是能够直接操作为人类设计的图形界面(GUI),从而理论上可以完成人类在电脑上能做的一切任务。此前的方案普遍存在两个痛点——速度慢(依赖反复截图-识别-操作的循环)和独占性(AI工作时用户无法使用电脑),OpenAI此次的方案正是针对这两个痛点进行了突破。
两步拖拽完成设置,Codex Computer Use上手极简
Computer Use的入门体验被设计得非常流畅。首次使用时,系统会弹出权限请求窗口,点击「Allow」后会自动动画过渡到系统设置界面,引导用户将Codex拖入辅助功能列表。整个设置过程只需要两次拖拽操作,随后Codex就能开始接管应用操作。
这种极简的onboarding设计降低了使用门槛,让非技术用户也能快速上手。设置完成后,Codex会进入Dock模式,随时待命。
实际演示:AI同时操控多个Mac应用
演示中展示了一个非常典型的使用场景——在UTM中创建Mac虚拟机。UTM是一款基于QEMU的开源虚拟化工具,专为macOS设计,支持在Apple Silicon Mac上运行各种操作系统。这个任务通常需要用户手动点击大量设置选项、选择操作系统镜像、配置CPU和内存参数、运行macOS安装助手,过程繁琐且耗时。而使用Codex,只需输入「make a new Mac VM in UTM」,它就会自动启动UTM并完成所有操作。

更令人惊喜的是Codex的多任务能力。在虚拟机下载macOS的同时,演示者又下达了两个额外任务:在Spotify上播放适合工作的音乐,以及在Reminders应用中添加一条晚间提醒。Codex同时驱动三个不同的应用,各自独立运行,互不干扰。

这里有一个关键的技术亮点:Codex使用的是独立于用户的虚拟光标。这意味着Codex在后台操作应用时,你可以继续使用自己的鼠标做其他事情。在传统的Computer Use方案中(包括Anthropic Claude和大多数RPA工具),AI通过模拟系统级的鼠标和键盘事件来操作界面,这意味着AI的操作会直接移动用户的真实光标,导致人机操作互斥。Codex的虚拟光标则利用macOS辅助功能API中的编程式交互能力——通过AXUIElement接口直接对目标界面元素执行操作(如点击、确认),而无需真正移动系统光标到对应位置。这种方式本质上是在API层面而非输入设备层面与应用交互,因此AI的操作和用户的鼠标键盘操作可以在完全独立的通道上并行进行。Ari特别强调,这是与市面上所有其他Computer Use实现方案的本质区别——其他方案都会完全接管你的电脑,让你在AI工作期间无法使用自己的设备。
Spark模型加持:实现超人类操作速度
Computer Use不仅支持多模态模型,还支持更快的Spark模型。Spark是OpenAI推出的轻量级高速推理模型,针对低延迟场景进行了优化,推理速度显著快于多模态大模型,同时在文本理解和指令遵循方面保持了较高水准。
这背后涉及一个重要的技术创新:传统的Computer Use方案完全依赖截图来理解界面,而Codex团队深入利用了macOS的**辅助功能框架(Accessibility Framework)**来提取界面的文本化描述信息。macOS的辅助功能框架最初是为视障用户设计的无障碍技术基础设施,它要求每个应用将自身的界面元素(按钮、文本框、菜单、滑块等)以结构化的语义树(Accessibility Tree)形式暴露给系统,包含每个元素的角色(role)、标签(label)、值(value)、位置坐标和可执行的操作。屏幕阅读器VoiceOver正是基于这套框架工作的。Codex团队巧妙地将这套框架用于AI的界面理解——相比纯截图方案,Accessibility Tree提供的是精确的结构化数据而非需要视觉模型解析的像素信息,这不仅大幅提升了识别准确率,还消除了对多模态视觉能力的强依赖。

这种方法带来了两个显著优势:
- 更高的准确性:模型能够「看到」滚动区域之外的内容,更深入地理解每个界面元素的角色和功能,不再受限于当前屏幕可视范围内的像素信息
- 更快的速度:由于不强制依赖图像输入,可以使用非多模态的Spark模型,跳过视觉编码器的处理开销,将每一步操作的决策时间从数百毫秒压缩到数十毫秒级别,实现超人类速度的操作
演示中,Ari用Spark模型发送了一条iMessage消息——打开Messages应用、找到联系人、输入文字、发送——整个过程在几秒内完成,速度远超人类手动操作。Ari将其形容为「superhuman」级别的表现。
安全机制:逐应用授权确保隐私隔离
对于一个能操控整台电脑的AI工具,安全性自然是用户最关心的问题。Codex团队在这方面采取了严格的隔离策略。

目前市面上主流的Computer Use方案在安全模型上存在显著差异。Anthropic的Claude Computer Use要求用户在Docker容器或虚拟机中运行一个完整的桌面环境,AI可以看到和操作该环境中的所有内容;大多数RPA(机器人流程自动化)工具则需要完整的屏幕录制和输入控制权限。这些方案的共同问题是权限粒度过粗——要么全部授权,要么完全不用。
Codex的Computer Use采用了截然不同的逐应用授权机制,借鉴了移动操作系统(iOS/Android)的权限管理哲学:
- Codex首次访问任何应用时,都会请求用户许可
- 获得授权后,Codex只能看到和操作该特定应用
- 未授权的应用对Codex完全不可见、不可交互
- 不会流式传输整个桌面,也不会访问所有文件
从技术实现上看,这得益于macOS辅助功能API本身就支持按进程(per-process)查询界面元素树,Codex只需过滤掉未授权应用的进程ID即可实现隔离,无需复杂的沙箱机制。这种设计让用户可以放心地将开发工具和生产力应用授权给Codex,同时确保包含敏感信息的应用(如银行客户端、密码管理器等)保持隔离。相比那些需要完整桌面访问权限的方案,这种细粒度的权限控制建立了更强的用户信任。
从专用模型到通用能力:Computer Use的技术演进
Ari透露了一个重要的技术背景:早期的Operator和ChatGPT Agent产品使用的是专门为Computer Use训练的独立模型——名为CUA(Computer-Using Agent)的专用模型。这类模型在标准GPT基础上,通过大量的GUI交互数据进行额外微调,使其具备截图理解和操作规划能力。然而,维护独立的专用模型意味着更高的训练成本、更复杂的部署架构,以及与主线模型能力迭代的脱节。
而现在OpenAI的研究团队已经将这些能力整合到了主线GPT模型中。这意味着Codex的Computer Use功能构建在与API相同的模型之上,开发者也可以利用这些能力构建自己的应用。
这一转变反映了AI行业的一个重要趋势——「能力收敛」:各种专项技能(代码生成、工具调用、界面操作、多模态理解)不再需要独立模型,而是作为通用基础模型的内置能力存在。这不仅简化了OpenAI内部的工作流程,也预示着Computer Use能力将成为AI模型的标准配置,而非需要单独训练的专项技能。通过OpenAI API调用标准模型的第三方开发者,未来可以直接获得Computer Use能力,无需额外集成。
未来展望:2倍、5倍、10倍于人类的操作速度
Ari对Computer Use的未来愿景非常明确:让AI操作电脑的速度达到人类的2倍、5倍甚至10倍。当这一目标实现时,Computer Use将变得不可或缺——用户会希望将几乎所有日常计算任务交给AI处理,从而专注于真正重要的事情。
目前Computer Use已在Mac平台上线,Windows版本也在紧锣密鼓地开发中。结合此前Codex已有的文件系统访问和在线服务插件能力,Computer Use补上了本地应用操控这最后一块拼图,让Codex真正成为一个全能的数字助手。从更宏观的视角来看,Computer Use的成熟可能重新定义人机交互的范式——未来用户不再需要学习每个应用的操作方式,只需用自然语言描述意图,AI就能在GUI层面完成所有操作,这本质上是在现有软件生态之上构建了一个新的交互抽象层。
正如Romain在演示结尾所说:「试试用它来处理你最复杂的任务——那种需要在五个应用之间来回切换、耗费数小时的工作。」这或许是对Computer Use能力最好的检验方式。
核心要点
- Codex Computer Use功能让AI能够像人类一样操控Mac上的任何应用,使用独立虚拟光标,不打断用户正常工作流
- 利用macOS辅助功能框架提取界面文本信息,配合Spark模型可实现超人类速度的应用操作
- 采用逐应用授权的安全机制,Codex只能访问用户明确授权的应用,未授权应用完全隔离
- Computer Use能力已从专用模型迁移到主线GPT模型,开发者可通过API构建类似功能
- 支持多应用并行操作,可同时驱动多个应用各自独立完成任务
相关推荐
产品体验Qoder vs Cursor实测对比:同样20美金谁更强?
实测对比Qoder和Cursor两款AI IDE,从Agent自主修复能力、人工沟通次数、架构决策等维度评测。Qoder仅需2次沟通完成任务,Cursor需8次。详细分析两者差异,帮你选择最适合的AI编程工具。
产品体验Cursor云Agent演示:打通软件开发全链路瓶颈
深度解析Cursor云Agent最新Demo,展示如何通过云端虚拟机、自动测试产物和全链路控制平面,系统性消除软件开发生命周期中的人类瓶颈,让Agent自主运行、人按需介入。
产品体验Cursor 3.0深度解析:多Agent并行、Design Mode与Best-of-N模型对比
Cursor 3.0正式发布,从AI辅助编程工具进化为Agent舰队指挥中心。本文详解多智能体并行、Design Mode可视化编辑、Best-of-N多模型择优等核心功能,解读AI编程新范式。