Codex一个月8大更新:从代码Agent进化为数字同事

Codex通过8项更新从代码助手进化为全能AI Agent
OpenAI的Codex在一个月内发布8项重大更新,从单纯的代码CLI工具转型为"数字同事"。核心新能力包括:Computer Use(直接操控电脑桌面应用)、内置浏览器(通过网页评论下达指令)、以及Automations(跨天跨周的持续任务系统),这些能力让Codex在交互直觉性和任务持续性上超越了Claude Code。
从备胎到主力:Codex的野心转变
去年4月Codex CLI刚发布时,它不过是一个会写代码的终端Agent,和Claude Code相比没有明显优势,模型能力还稍弱一些。但4月16日OpenAI发布的一条公告彻底改变了这个定位——标题叫"Codex for Almost Everything",意味着Codex不再只是写代码的工具,而是要成为一个几乎能做所有事的AI Agent。
这一个月的8项更新,让Codex从一个代码助手进化成了一个"数字同事"。下面逐一拆解这些新能力。
Computer Use:跨出终端的第一步
Codex现在能看你的屏幕、点击UI、用自己的光标在你电脑上打字。授权之后,它可以操作桌面上的任何APP。
Computer Use是一类让AI直接控制计算机图形界面的技术范式。其底层通常依赖"截图→视觉理解→动作生成"的循环:模型接收屏幕截图,识别UI元素位置,输出鼠标坐标和键盘指令,再截图确认结果。Anthropic在2024年10月率先将这一能力商业化,OpenAI随后跟进。这类技术的核心挑战在于UI的不确定性——按钮位置随窗口大小变化、弹窗打断流程、加载延迟导致误操作,都需要模型具备较强的错误恢复能力。
一个典型场景:让它把Figma设计稿里的色值抓出来写到Tailwind Config里。它会自己打开Figma、截屏、识图、写入配置,全程不需要你动鼠标。这类跨APP的工作,Claude Code作为CLI Agent很难直接完成。
代价是什么?你给它的权限是整台电脑,而不是某个项目目录。心智压力比Claude Code大一个量级。
内置浏览器:指着网页跟Agent说话

配套Computer Use的还有一个内置浏览器,最有意思的设计是:你可以在网页上直接评论,把Comment当成指令丢给Agent。
举个例子:打开本地预览页,选中一个按钮,评论一句"这个按钮状态太弱,改成更明显的Primary Action",完事。这种指着浏览器跟AI Agent说话的交互,比Claude Code走MCP接APP那套直觉多了——普通人不用懂什么是API。
MCP(Model Context Protocol)是Anthropic于2024年11月开源的标准化协议,定义了AI模型与外部工具、数据源之间的通信接口。其设计思路类似USB-C:统一接口规范,让任意模型可以接入任意工具,而无需为每个组合单独开发适配层。Claude Code通过MCP连接外部服务时,用户需要自行配置Server端,包括安装依赖、设置认证、声明工具列表。相比之下,Codex的插件生态走的是应用商店模式,牺牲了灵活性换取了开箱即用的体验。
Automations:让Agent接长期任务
真正让人恍惚的是Automations——一个持续任务系统。你给Agent一个长期目标,它可以复用原来的对话上下文,按计划自动唤醒继续执行。OpenAI的原话是"Potentially Across Days or Weeks"。
比如你可以设定:"每天监控这个开源项目的issue,每出现一个跟性能相关的,就帮我整理背景、复现路径和可能的修复方向。
相关推荐
产品体验Qoder vs Cursor实测对比:同样20美金谁更强?
实测对比Qoder和Cursor两款AI IDE,从Agent自主修复能力、人工沟通次数、架构决策等维度评测。Qoder仅需2次沟通完成任务,Cursor需8次。详细分析两者差异,帮你选择最适合的AI编程工具。
产品体验Cursor云Agent演示:打通软件开发全链路瓶颈
深度解析Cursor云Agent最新Demo,展示如何通过云端虚拟机、自动测试产物和全链路控制平面,系统性消除软件开发生命周期中的人类瓶颈,让Agent自主运行、人按需介入。
产品体验Cursor 3.0深度解析:多Agent并行、Design Mode与Best-of-N模型对比
Cursor 3.0正式发布,从AI辅助编程工具进化为Agent舰队指挥中心。本文详解多智能体并行、Design Mode可视化编辑、Best-of-N多模型择优等核心功能,解读AI编程新范式。