Codex一个月8大更新：从代码Agent进化为数字同事

从备胎到主力：Codex的野心转变

去年4月Codex CLI刚发布时，它不过是一个会写代码的终端Agent，和Claude Code相比没有明显优势，模型能力还稍弱一些。但4月16日OpenAI发布的一条公告彻底改变了这个定位——标题叫"Codex for Almost Everything"，意味着Codex不再只是写代码的工具，而是要成为一个几乎能做所有事的AI Agent。

这一个月的8项更新，让Codex从一个代码助手进化成了一个"数字同事"。下面逐一拆解这些新能力。

Computer Use：跨出终端的第一步

Codex现在能看你的屏幕、点击UI、用自己的光标在你电脑上打字。授权之后，它可以操作桌面上的任何APP。

Computer Use是一类让AI直接控制计算机图形界面的技术范式。其底层通常依赖"截图→视觉理解→动作生成"的循环：模型接收屏幕截图，识别UI元素位置，输出鼠标坐标和键盘指令，再截图确认结果。Anthropic在2024年10月率先将这一能力商业化，OpenAI随后跟进。这类技术的核心挑战在于UI的不确定性——按钮位置随窗口大小变化、弹窗打断流程、加载延迟导致误操作，都需要模型具备较强的错误恢复能力。

一个典型场景：让它把Figma设计稿里的色值抓出来写到Tailwind Config里。它会自己打开Figma、截屏、识图、写入配置，全程不需要你动鼠标。这类跨APP的工作，Claude Code作为CLI Agent很难直接完成。

代价是什么？你给它的权限是整台电脑，而不是某个项目目录。心智压力比Claude Code大一个量级。

内置浏览器：指着网页跟Agent说话

Codex内置浏览器交互方式

配套Computer Use的还有一个内置浏览器，最有意思的设计是：你可以在网页上直接评论，把Comment当成指令丢给Agent。

举个例子：打开本地预览页，选中一个按钮，评论一句"这个按钮状态太弱，改成更明显的Primary Action"，完事。这种指着浏览器跟AI Agent说话的交互，比Claude Code走MCP接APP那套直觉多了——普通人不用懂什么是API。

MCP（Model Context Protocol）是Anthropic于2024年11月开源的标准化协议，定义了AI模型与外部工具、数据源之间的通信接口。其设计思路类似USB-C：统一接口规范，让任意模型可以接入任意工具，而无需为每个组合单独开发适配层。Claude Code通过MCP连接外部服务时，用户需要自行配置Server端，包括安装依赖、设置认证、声明工具列表。相比之下，Codex的插件生态走的是应用商店模式，牺牲了灵活性换取了开箱即用的体验。