Codex CLI /goal命令详解:AI自动循环执行直到目标完成

Codex CLI新增/goal命令,支持AI自主循环执行直到目标完成
OpenAI的Codex CLI 0.128.0版本引入/goal命令,允许用户设定目标后由AI自动循环执行任务,直到目标完成或Token预算耗尽。该功能通过Prompt模板驱动实现Ralph Loop模式,内置Token预算机制作为安全边界,标志着编码代理工具从单轮交互的辅助工具向目标导向的自主代理演进。
概述
OpenAI 的 Codex CLI 编码代理工具发布了 0.128.0 版本,引入了一个值得关注的新特性——/goal 命令。这个功能允许用户设定一个目标,Codex 将持续自动循环执行任务,直到评估目标已完成,或者配置的 Token 预算耗尽为止。
Codex CLI 是 OpenAI 于 2025 年开源的终端编码代理工具,使用 Rust 语言实现,定位为开发者在命令行环境中与大语言模型协作编写代码的轻量级入口。与 ChatGPT 网页端或 API 直接调用不同,Codex CLI 深度集成了本地文件系统操作和 Shell 命令执行能力,能够直接在开发者的项目目录中读写文件、运行测试和执行构建命令。它在 OpenAI 的产品矩阵中扮演着"开发者工作流原生工具"的角色,与面向普通用户的 ChatGPT 形成互补。
这一设计本质上是 OpenAI 对 Ralph Loop 模式的自有实现,标志着编码代理工具在自主性方面迈出了重要一步。
/goal 命令的核心机制
从单轮交互到目标驱动循环
传统的 AI 编码助手通常采用"一问一答"的交互模式:用户提出需求,AI 生成代码,用户检查结果,再提出修改意见。这种模式虽然安全可控,但在处理复杂任务时效率偏低。
/goal 命令打破了单轮交互的限制。用户只需设定一个高层目标,Codex CLI 就会自动进入循环模式:
- 执行任务:根据目标生成并执行代码
- 自我评估:判断当前状态是否已达成目标
- 继续或停止:如果目标未完成,自动进入下一轮迭代;如果完成或预算耗尽,则停止
这个循环结构与 AI Agent 研究中广泛讨论的 ReAct(Reasoning + Acting)框架有相似之处。ReAct 框架由 Google 和普林斯顿大学在 2022 年提出,其核心思想是让语言模型在执行动作(Acting)之前先进行推理(Reasoning),然后根据观察结果(Observation)决定下一步行动。/goal 命令的循环本质上就是一个 ReAct 循环的工程化实现——每一轮迭代中,模型先推理当前进度,再决定执行什么操作,最后评估结果。
Prompt 模板驱动的实现方式
从技术实现来看,/goal 功能主要通过两个提示模板驱动:
goals/continuation.md:在每一轮结束时自动注入,引导模型评估当前进度并决定是否需要继续执行。这是实现"自动循环"的核心机制。goals/budget_limit.md:负责处理 Token 预算耗尽的情况,确保即使目标未完成,系统也能优雅地停止运行,避免无限消耗资源。
这种基于 Prompt Engineering 的实现方式相当巧妙——它没有引入复杂的外部控制逻辑,而是利用大语言模型自身的理解和判断能力来驱动整个循环过程。这种设计思路可以归类为"LLM-as-Judge"范式的一种应用:不依赖外部规则引擎或硬编码的条件判断来决定循环是否继续,而是将评估任务本身交给语言模型完成。模型在每轮结束时阅读 continuation.md 模板中的指令,结合当前对话上下文和已执行的操作结果,自主判断目标是否达成。这种架构的优势在于极高的灵活性——无论目标是"重构一个模块"还是"修复所有测试",同一套 Prompt 模板都能适配,因为判断逻辑是由模型根据语义理解动态生成的,而非预先定义的规则。当然,这也意味着评估的准确性完全依赖于模型的推理能力,存在误判(过早停止或遗漏未完成的子任务)的可能性。
Ralph Loop 模式为什么重要
/goal 功能所实现的 Ralph Loop 模式,是当前 AI Agent 领域的一个重要设计范式。其核心思想是:让 AI 不仅执行单步操作,而是围绕一个目标持续自主工作。
Ralph Loop 这一概念由澳大利亚开发者 Geoffrey Huntley 提出并命名,灵感来源于一种简单但强大的观察:如果你让 AI 代理在完成一步操作后自动检查结果并决定下一步,而不是每次都等待人类确认,那么代理的生产力会呈数量级提升。这个名字本身带有一定的社区文化色彩("Ralph"是一个拟人化的代称),但其背后的技术思想是严肃的——它本质上是将传统软件工程中的 REPL(Read-Eval-Print Loop,读取-求值-输出循环)概念扩展到了 AI Agent 层面。传统 REPL 循环中,人类是循环的驱动者;而在 Ralph Loop 中,AI 自身成为循环的驱动者,人类退居为目标设定者和最终审查者。这种角色转换是 AI 编码工具从"副驾驶"(Copilot)走向"自动驾驶"(Autopilot)的关键一步。
这种模式在实际开发场景中有明显的价值:
- 复杂重构任务:比如"将项目从 JavaScript 迁移到 TypeScript",这类任务涉及多个文件、多个步骤,单轮交互难以完成
- 自动化 Bug 修复:设定"修复所有测试用例"的目标,让代理自动定位问题、修改代码、运行测试、验证结果
- 端到端代码生成:设定功能需求作为目标,让代理自动完成从设计到实现的完整流程
Token 预算机制:自主执行的安全边界
OpenAI 在设计 /goal 功能时加入了 Token 预算限制作为安全边界。这是一个务实的设计决策——自主循环的 AI 代理如果没有资源限制,可能会陷入无限循环或产生高昂的 API 调用费用。
这里的"Token 预算"指的是在整个目标执行过程中,允许消耗的 Token 总量上限。在大语言模型的 API 调用中,Token 是计费和计算的基本单位——大约每 4 个英文字符或 1-2 个中文字符对应一个 Token,每次 API 调用的费用按输入 Token 和输出 Token 分别计价。需要注意的是,Token 预算与模型的上下文窗口(Context Window)限制是两个不同的概念:上下文窗口限制的是单次 API 调用中能处理的最大 Token 数(例如 GPT-4o 的上下文窗口为 128K Token),而 Token 预算限制的是跨多轮循环的累计消耗总量。在 /goal 的自主循环场景中,每一轮迭代都会产生新的 API 调用,累计消耗可能远超单次上下文窗口的大小。以当前 OpenAI 的定价为参考,一个涉及数十轮迭代的复杂重构任务,Token 消耗可能达到数百万级别,对应的 API 费用可能从几美元到几十美元不等。因此,Token 预算机制既是技术安全措施,也是成本控制手段。
通过配置 Token 预算,用户可以在自主性和可控性之间找到平衡点。当预算耗尽时,系统会停止执行并报告当前进度,而不是无限制地继续运行。
编码代理从辅助工具走向自主代理
这一更新反映了编码代理工具正在从"辅助工具"向"自主代理"演进的行业趋势。越来越多的 AI 编码工具开始支持目标导向的自主执行模式,而不仅仅是被动响应用户的逐步指令。
这一趋势在 2025 年的 AI 编码工具市场中表现得尤为明显。Cognition 公司的 Devin 率先以"AI 软件工程师"的定位引发关注,主打完全自主的端到端开发能力;Cursor 编辑器推出了 Agent Mode(Background Agent),允许用户在后台启动自主编码任务;Anthropic 的 Claude Code 同样支持 headless 模式下的自主执行。这些产品虽然在实现细节和产品形态上各有不同——Devin 偏向云端沙箱环境中的全自主开发,Cursor 侧重 IDE 内的交互式代理体验,Claude Code 则强调终端环境下的深度代码理解——但它们共同指向同一个方向:AI 编码工具正在从"补全代码片段"的辅助角色,进化为能够理解高层目标并自主规划执行路径的代理角色。Codex CLI 的 /goal 命令正是 OpenAI 在这一竞争格局中的明确回应。
Codex CLI 作为 OpenAI 的开源项目(基于 Rust 实现),其功能演进也为社区提供了关于 Agentic Engineering 的参考实现。Agentic Engineering(代理工程)是近一年来在 AI 工程领域快速兴起的实践方向,关注的核心问题是:如何设计、构建和管理具有自主决策能力的 AI 代理系统。它涵盖了代理的记忆管理、工具调用编排、安全边界设定、多代理协作等一系列工程挑战。Codex CLI 通过 Prompt 模板而非硬编码逻辑来实现代理行为,这种设计思路展示了一种轻量级的 Agentic Engineering 方法论——将代理的行为逻辑尽可能下沉到 Prompt 层面,保持代码层面的简洁性和可维护性,同时利用模型能力的持续提升来自然地改善代理表现。这种思路值得其他开发者在构建自己的 AI Agent 系统时借鉴。
核心要点
- Codex CLI 0.128.0 新增 /goal 命令,支持设定目标后自动循环执行直到完成
- 该功能是 Ralph Loop 模式的 OpenAI 实现,通过 continuation.md 和 budget_limit.md 两个提示模板驱动
- 内置 token 预算机制作为安全边界,防止无限循环和资源过度消耗
- 标志着编码代理工具从单轮交互向目标导向自主执行模式的演进
相关推荐
教程攻略Cursor+Codex双IDE协同:开源项目二开实战方法论
基于实战经验总结的开源项目二次开发完整方法论,详解Cursor+Codex双IDE协同工作流,涵盖二开七环节、MVP验证、AI读源码技巧,帮助开发者三天跑通项目、两周完成业务集成。
教程攻略Cursor多Agent实战:50分钟搭建Next.js全栈博客
使用Cursor IDE多Agent协作模式,50分钟内从零搭建全栈博客。涵盖Next.js、Clerk认证、Supabase数据库集成,详解4个AI Agent分阶段开发流程与关键避坑经验。
教程攻略从零搭建AI软件工厂:Cursor工程师的多Agent协作实战经验
Cursor工程师Eric分享AI软件工厂构建实战:从自动化六层级、护栏设计、并行Agent管理到规模化扩展,详解如何用多Agent协作实现7×24小时高效软件开发。