OpenAI Codex桌面应用深度实测：bug不断、交互反直觉

文章正文

OpenAI近日推出了Codex桌面应用，为旗下AI编程助手提供了图形界面。此前Codex只能通过终端或VS Code扩展使用，体验一直被开发者吐槽卡顿。这款新应用号称MacOS原生、免费试用一个月，听起来很美好——但实际体验如何？一位开发者进行了深度实测，结果发现问题远比预期严重。

背景：Codex的技术演进 OpenAI Codex最初于2021年作为GPT-3的衍生模型发布，专门针对代码生成任务进行了微调训练，是GitHub Copilot早期的底层引擎。其核心能力来自对数十亿行公开代码的预训练，能够理解自然语言描述并生成对应代码。2023年后，Codex的能力被整合进GPT-4系列模型，不再作为独立API提供。此次桌面应用的推出，标志着OpenAI将Codex重新定位为一个完整的AI编程工作流平台，而非单纯的代码补全工具——这与GitHub Copilot、Cursor、Windsurf等竞品的产品形态趋于一致，反映出AI编程助手市场正从"代码补全"向"自主编程代理"演进的行业趋势。

界面设计：与Conductor高度相似的既视感

打开Codex桌面应用，第一印象是界面相当简洁，保留了ChatGPT的配色和设计风格。左侧是对话线程和菜单选项，整体布局中规中矩。

但如果你用过Conductor（另一款热门AI编程工具），你会立刻感到一种强烈的既视感。两者的界面几乎如出一辙——Conductor用"工作区"来组织任务，Codex用"线程"，然后在线程内创建工作区。设计灵感的来源可以说是随处可见。

AI编程助手的GUI化趋势 传统AI编程工具长期依赖IDE插件（如VS Code Extension）或命令行界面（CLI）作为交互入口，这种模式对非技术用户门槛较高，且在多任务管理、可视化反馈方面存在天然局限。2023年以来，Cursor、Windsurf等工具率先将AI能力与完整IDE深度融合，而Conductor、Claude Code等则探索了"轻量级GUI + 后台代理"的新范式。独立桌面应用的优势在于可以脱离特定IDE运行、统一管理多个项目和任务线程，并提供更丰富的可视化操作界面。OpenAI此次推出原生MacOS应用，正是对这一趋势的跟进——但从实测结果来看，产品成熟度与先行者之间仍有明显差距。

应用提供了三个主要功能标签页：技能（Skills）、自动化（Automation） 和主对话界面。在技能标签页中，你可以安装预设技能，也可以创建自定义技能。不过安装自定义技能的流程并不友好——你需要手动进入Codex的配置文件夹，将技能文件放进去。

Codex配置文件夹

自动化功能允许你创建定时任务，可以设置特定时间或按间隔执行，也可以从预设模板中创建。这些功能听起来不错，但实际使用中的问题才刚刚开始。

Bug频出：万亿公司的品控令人费解

实测过程中暴露出大量令人困惑的问题。首先是模型选择功能失效——界面上只能看到GPT-5.2 Codex Medium这一个选项，点击其他模型毫无反应，也没有任何错误提示。

工作模式方面提供了三种选择：创建新分支开发、本地工作（无需工作区）、云端工作。但云端模式存在一个奇怪的逻辑问题：它会忽略顶部选定的项目，转而使用右下角选定的仓库进行工作，这种不一致性让人摸不着头脑。

更离谱的是UI渲染问题。进入设置页面时一切看起来正常，但只要切换到技能标签页，界面就开始"抽风"——右侧的灰色背景消失，新技能的界面元素超出边界。

界面超出边界的bug

原生MacOS应用的技术标准 OpenAI将Codex桌面应用定位为"MacOS原生"，这一说法值得细究。真正的原生MacOS应用通常使用Swift + SwiftUI或AppKit框架构建，能够充分利用系统级API、遵循Apple Human Interface Guidelines（HIG），并在内存管理、渲染性能上获得系统级优化。然而，许多声称"原生"的应用实际上基于Electron（如VS Code、Slack）或Tauri等跨平台框架构建，本质上是运行在Chromium内核中的Web应用，内存占用较高，且难以完全遵循平台设计规范。文章中提到的UI渲染异常、内边距不一致等问题，在Electron类应用中尤为常见。判断一款应用是否真正原生，可以通过Activity Monitor查看其进程类型，或观察其是否支持MacOS特有的手势、动画和系统集成功能。

对于一家万亿级别的公司来说，这种基础UI问题实在难以接受。每个页面的内边距也参差不齐，整体质感与OpenAI的品牌形象严重不符。

核心功能体验：连读文件都会出错

界面问题或许还能忍受，但核心功能的表现更让人失望。测试者打开了一个名为"Zurich"的项目文件夹（这个项目此前正在用Conductor开发），询问Codex关于项目中Snapper组件的信息。

Codex的回应是"需要上下文"。当被要求自行检查文件时，它直接表示无法执行——提示任务是在该文件夹中创建的，但它无法运行。一个AI编程助手连基本的文件读取都做不到，这确实说不过去。

关闭应用重启后，功能恢复正常。Codex成功阅读了项目文件，并准确描述了项目用途——一个为Claude Code、Codex和Open Code提供的图形界面工具。

项目分析结果

交互设计的反直觉之处

除了bug之外，Codex桌面应用的交互设计也存在诸多反直觉的地方。

计划模式入口：加号图标的误导

要启用计划模式，你需要点击一个加号图标——而这个图标在几乎所有应用中都被用来"添加文件

OpenAI Codex桌面应用深度实测：bug不断、交互反直觉

文章正文

界面设计：与Conductor高度相似的既视感

Bug频出：万亿公司的品控令人费解

核心功能体验：连读文件都会出错

交互设计的反直觉之处

计划模式入口：加号图标的误导

相关推荐

Qoder vs Cursor实测对比：同样20美金谁更强？

Cursor云Agent演示：打通软件开发全链路瓶颈

Cursor 3.0深度解析：多Agent并行、Design Mode与Best-of-N模型对比