实测OpenAI Codex Computer Use：AI自动操控Mac桌面全流程体验

OpenAI的Codex正在从编程助手进化为真正的「电脑操作员」。最新推出的Computer Use功能让Codex能够像人类一样操控Mac上的任何应用——移动鼠标、点击按钮、输入文字，而且全程不打断你的工作流。OpenAI工程师Romain和Ari在最新演示中完整展示了这一功能的实际表现，从虚拟机创建到Spotify播放音乐，再到发送iMessage消息，Codex的表现令人印象深刻。

Computer Use（计算机使用）是AI领域近两年最受关注的能力方向之一。2024年10月，Anthropic率先发布了Claude的Computer Use功能，允许AI通过截图识别和模拟鼠标键盘操作来控制桌面应用，随后Google DeepMind的Project Mariner、微软的UFO等项目也纷纷跟进。这一能力的核心意义在于：它让AI不再局限于文本对话或API调用，而是能够直接操作为人类设计的图形界面（GUI），从而理论上可以完成人类在电脑上能做的一切任务。此前的方案普遍存在两个痛点——速度慢（依赖反复截图-识别-操作的循环）和独占性（AI工作时用户无法使用电脑），OpenAI此次的方案正是针对这两个痛点进行了突破。

两步拖拽完成设置，Codex Computer Use上手极简

Computer Use的入门体验被设计得非常流畅。首次使用时，系统会弹出权限请求窗口，点击「Allow」后会自动动画过渡到系统设置界面，引导用户将Codex拖入辅助功能列表。整个设置过程只需要两次拖拽操作，随后Codex就能开始接管应用操作。

这种极简的onboarding设计降低了使用门槛，让非技术用户也能快速上手。设置完成后，Codex会进入Dock模式，随时待命。

实际演示：AI同时操控多个Mac应用

演示中展示了一个非常典型的使用场景——在UTM中创建Mac虚拟机。UTM是一款基于QEMU的开源虚拟化工具，专为macOS设计，支持在Apple Silicon Mac上运行各种操作系统。这个任务通常需要用户手动点击大量设置选项、选择操作系统镜像、配置CPU和内存参数、运行macOS安装助手，过程繁琐且耗时。而使用Codex，只需输入「make a new Mac VM in UTM」，它就会自动启动UTM并完成所有操作。

Codex Computer Use实际操作演示

更令人惊喜的是Codex的多任务能力。在虚拟机下载macOS的同时，演示者又下达了两个额外任务：在Spotify上播放适合工作的音乐，以及在Reminders应用中添加一条晚间提醒。Codex同时驱动三个不同的应用，各自独立运行，互不干扰。

多任务并行处理

这里有一个关键的技术亮点：Codex使用的是独立于用户的虚拟光标。这意味着Codex在后台操作应用时，你可以继续使用自己的鼠标做其他事情。在传统的Computer Use方案中（包括Anthropic Claude和大多数RPA工具），AI通过模拟系统级的鼠标和键盘事件来操作界面，这意味着AI的操作会直接移动用户的真实光标，导致人机操作互斥。Codex的虚拟光标则利用macOS辅助功能API中的编程式交互能力——通过AXUIElement接口直接对目标界面元素执行操作（如点击、确认），而无需真正移动系统光标到对应位置。这种方式本质上是在API层面而非输入设备层面与应用交互，因此AI的操作和用户的鼠标键盘操作可以在完全独立的通道上并行进行。Ari特别强调，这是与市面上所有其他Computer Use实现方案的本质区别——其他方案都会完全接管你的电脑，让你在AI工作期间无法使用自己的设备。

Spark模型加持：实现超人类操作速度

Computer Use不仅支持多模态模型，还支持更快的Spark模型。Spark是OpenAI推出的轻量级高速推理模型，针对低延迟场景进行了优化，推理速度显著快于多模态大模型，同时在文本理解和指令遵循方面保持了较高水准。

这背后涉及一个重要的技术创新：传统的Computer Use方案完全依赖截图来理解界面，而Codex团队深入利用了macOS的**辅助功能框架（Accessibility Framework）**来提取界面的文本化描述信息。macOS的辅助功能框架最初是为视障用户设计的无障碍技术基础设施，它要求每个应用将自身的界面元素（按钮、文本框、菜单、滑块等）以结构化的语义树（Accessibility Tree）形式暴露给系统，包含每个元素的角色（role）、标签（label）、值（value）、位置坐标和可执行的操作。屏幕阅读器VoiceOver正是基于这套框架工作的。Codex团队巧妙地将这套框架用于AI的界面理解——相比纯截图方案，Accessibility Tree提供的是精确的结构化数据而非需要视觉模型解析的像素信息，这不仅大幅提升了识别准确率，还消除了对多模态视觉能力的强依赖。

使用Spark模型的超快速操作

这种方法带来了两个显著优势：

更高的准确性：模型能够「看到」滚动区域之外的内容，更深入地理解每个界面元素的角色和功能，不再受限于当前屏幕可视范围内的像素信息
更快的速度：由于不强制依赖图像输入，可以使用非多模态的Spark模型，跳过视觉编码器的处理开销，将每一步操作的决策时间从数百毫秒压缩到数十毫秒级别，实现超人类速度的操作

演示中，Ari用Spark模型发送了一条iMessage消息——打开Messages应用、找到联系人、输入文字、发送——整个过程在几秒内完成，速度远超人类手动操作。Ari将其形容为「superhuman」级别的表现。

安全机制：逐应用授权确保隐私隔离

对于一个能操控整台电脑的AI工具，安全性自然是用户最关心的问题。Codex团队在这方面采取了严格的隔离策略。

安全与权限管理

目前市面上主流的Computer Use方案在安全模型上存在显著差异。Anthropic的Claude Computer Use要求用户在Docker容器或虚拟机中运行一个完整的桌面环境，AI可以看到和操作该环境中的所有内容；大多数RPA（机器人流程自动化）工具则需要完整的屏幕录制和输入控制权限。这些方案的共同问题是权限粒度过粗——要么全部授权，要么完全不用。

Codex的Computer Use采用了截然不同的逐应用授权机制，借鉴了移动操作系统（iOS/Android）的权限管理哲学：

Codex首次访问任何应用时，都会请求用户许可
获得授权后，Codex只能看到和操作该特定应用
未授权的应用对Codex完全不可见、不可交互
不会流式传输整个桌面，也不会访问所有文件

从技术实现上看，这得益于macOS辅助功能API本身就支持按进程（per-process）查询界面元素树，Codex只需过滤掉未授权应用的进程ID即可实现隔离，无需复杂的沙箱机制。这种设计让用户可以放心地将开发工具和生产力应用授权给Codex，同时确保包含敏感信息的应用（如银行客户端、密码管理器等）保持隔离。相比那些需要完整桌面访问权限的方案，这种细粒度的权限控制建立了更强的用户信任。

从专用模型到通用能力：Computer Use的技术演进

Ari透露了一个重要的技术背景：早期的Operator和ChatGPT Agent产品使用的是专门为Computer Use训练的独立模型——名为CUA（Computer-Using Agent）的专用模型。这类模型在标准GPT基础上，通过大量的GUI交互数据进行额外微调，使其具备截图理解和操作规划能力。然而，维护独立的专用模型意味着更高的训练成本、更复杂的部署架构，以及与主线模型能力迭代的脱节。

而现在OpenAI的研究团队已经将这些能力整合到了主线GPT模型中。这意味着Codex的Computer Use功能构建在与API相同的模型之上，开发者也可以利用这些能力构建自己的应用。

这一转变反映了AI行业的一个重要趋势——「能力收敛」：各种专项技能（代码生成、工具调用、界面操作、多模态理解）不再需要独立模型，而是作为通用基础模型的内置能力存在。这不仅简化了OpenAI内部的工作流程，也预示着Computer Use能力将成为AI模型的标准配置，而非需要单独训练的专项技能。通过OpenAI API调用标准模型的第三方开发者，未来可以直接获得Computer Use能力，无需额外集成。

未来展望：2倍、5倍、10倍于人类的操作速度

Ari对Computer Use的未来愿景非常明确：让AI操作电脑的速度达到人类的2倍、5倍甚至10倍。当这一目标实现时，Computer Use将变得不可或缺——用户会希望将几乎所有日常计算任务交给AI处理，从而专注于真正重要的事情。

目前Computer Use已在Mac平台上线，Windows版本也在紧锣密鼓地开发中。结合此前Codex已有的文件系统访问和在线服务插件能力，Computer Use补上了本地应用操控这最后一块拼图，让Codex真正成为一个全能的数字助手。从更宏观的视角来看，Computer Use的成熟可能重新定义人机交互的范式——未来用户不再需要学习每个应用的操作方式，只需用自然语言描述意图，AI就能在GUI层面完成所有操作，这本质上是在现有软件生态之上构建了一个新的交互抽象层。

正如Romain在演示结尾所说：「试试用它来处理你最复杂的任务——那种需要在五个应用之间来回切换、耗费数小时的工作。」这或许是对Computer Use能力最好的检验方式。

核心要点

Codex Computer Use功能让AI能够像人类一样操控Mac上的任何应用，使用独立虚拟光标，不打断用户正常工作流
利用macOS辅助功能框架提取界面文本信息，配合Spark模型可实现超人类速度的应用操作
采用逐应用授权的安全机制，Codex只能访问用户明确授权的应用，未授权应用完全隔离
Computer Use能力已从专用模型迁移到主线GPT模型，开发者可通过API构建类似功能
支持多应用并行操作，可同时驱动多个应用各自独立完成任务

实测OpenAI Codex Computer Use：AI自动操控Mac桌面全流程体验

两步拖拽完成设置，Codex Computer Use上手极简

实际演示：AI同时操控多个Mac应用

Spark模型加持：实现超人类操作速度

安全机制：逐应用授权确保隐私隔离

从专用模型到通用能力：Computer Use的技术演进

未来展望：2倍、5倍、10倍于人类的操作速度

核心要点

相关推荐

Qoder vs Cursor实测对比：同样20美金谁更强？

Cursor云Agent演示：打通软件开发全链路瓶颈

Cursor 3.0深度解析：多Agent并行、Design Mode与Best-of-N模型对比