35行提示词让Codex自动优化工作流，OpenAI总裁亲自转发

OpenAI内部员工最近分享了一个令人兴奋的玩法：仅用35行提示词，就能让Codex自动分析你过去30天的工作记录，识别重复劳动，并将其打包成可复用的自动化技能（Skill）。这条推文甚至获得了OpenAI总裁的亲自转发点赞。

核心原理：让AI审计你的工作习惯

这个玩法的核心思路非常清晰——把一段精心设计的提示词喂给Codex，让它回溯你过去30天的历史对话和任务数据，从中挖掘出你每天都在重复做的事情。

比如反复载入文档、修Bug、整理资料、写周报……这些看似琐碎但日复一日消耗时间的操作，Codex都会逐一识别出来。

Codex技术背景：OpenAI Codex是基于GPT架构专门针对代码理解与生成任务进行微调的大语言模型，最初于2021年发布并作为GitHub Copilot的底层引擎。2025年，OpenAI重新推出了以Codex命名的云端AI编程代理（Agent），将其定位从单纯的代码补全工具升级为能够自主规划、执行多步骤任务的智能代理系统。新版Codex运行在沙盒环境中，可以读写文件、执行终端命令、调用外部API，并通过与用户的持续交互积累上下文记忆，本质上是将LLM的语言理解能力与操作系统级别的执行能力结合在一起。

Codex定时检查任务自动化处理流程

识别完成后，Codex会根据任务性质进行分类处理：

能复用的：直接做成Skill（技能模板），下次一键调用
需要专门角色处理的：派遣Sub-Agent（子代理）来执行
定时检查类任务：设置自动化流程，不需要人盯

Skill与Agent架构解析：在AI代理系统的设计范式中，Skill（技能）是指将一段可复用的任务逻辑封装成标准化模块的机制，类似于软件工程中的函数或微服务。当代理识别出某个任务具有高度重复性时，会将其执行步骤、所需参数和预期输出抽象成一个可调用的Skill，后续遇到同类任务时直接调用而无需重新推理。Sub-Agent（子代理）则是多代理架构中的核心概念：主代理（Orchestrator）负责任务分解和调度，将具体子任务委派给专门化的子代理并行或串行执行。这种分层架构借鉴了软件工程中的微服务思想，能显著提升复杂任务的处理效率和可维护性，是当前AI Agent领域（如AutoGPT、LangGraph、OpenAI Swarm）的主流设计模式。

关键在于，Codex并不会盲目地把所有事情都自动化。它会先进行判断：这件事是否至少重复出现过两次？未来是否还会继续发生？流程是否足够稳定？是否值得投入自动化成本？只有同时满足这些条件，它才会开始动手。

屏幕读取 + 长期记忆：突破对话框的边界

Codex最近新推出了屏幕读取功能，这让整个玩法的威力再上一个台阶。

开启这项能力后，Codex不仅能分析你在对话框里的操作记录，还能"看到"你在浏览器、办公软件、邮箱等应用中做了什么。也就是说，它能捕捉到你在Codex之外的重复行为模式。

屏幕读取技术原理：Codex的屏幕读取功能属于多模态感知能力的延伸，其底层依赖计算机视觉模型（如GPT-4V/GPT-4o的视觉理解能力）对屏幕截图或实时画面进行语义解析。技术实现上，系统会定期捕获用户屏幕内容，通过OCR（光学字符识别）提取文字信息，同时结合视觉模型理解UI元素的布局与状态，再将这些信息转化为结构化的行为日志供语言模型分析。这一能力与Anthropic的Claude Computer Use、Google Project Mariner等产品的技术路线高度相似，代表了AI从"语言空间"向"操作空间"渗透的重要趋势。其核心价值在于打破了AI只能感知用户主动输入内容的局限，使其能够被动观察用户的真实工作流。

Codex工作流自动化不只适用于程序员

再加上Codex的记忆功能——能够长期记住你的个人偏好、项目背景、历史修正记录——现在的Codex已经越来越像一个会观察你工作习惯、主动帮你精简工作流的AI同事。

长期记忆机制的技术实现：大语言模型本身是无状态的——每次对话结束后，模型不会自动保留任何信息。AI系统实现"长期记忆"通常依赖外部存储机制：将重要信息（用户偏好、项目背景、历史决策）序列化后存入向量数据库（如Pinecone、Weaviate）或结构化数据库，在新对话开始时通过检索增强生成（RAG，Retrieval-Augmented Generation）技术将相关记忆注入上下文窗口。OpenAI在ChatGPT和Codex中实现的记忆功能正是这一架构的产品化落地。记忆系统的质量直接决定了AI代理的"个性化"程度——记忆越精准，代理越能理解用户的工作习惯和隐性偏好，从而减少重复沟通成本，这也是Codex能够实现"主动审计工作习惯"的技术前提。

而且这个方案的适用范围远不止程序员。写文章的、做运营的、搞策划的，只要你的工作中存在重复性劳动，都能从中受益。

社区反响与Token成本考量

这个玩法一经分享，社区反响非常热烈。许多网友试用后立刻反馈"太疯狂了"，纷纷呼吁将其做成正式插件。OpenAI总裁看完后也亲自转发点赞，足见其认可度。

社区呼吁将Codex自动化功能做成插件

当然，也有人提出了现实的担忧：回查30天的历史记录，这得消耗多少Token和积分？对于普通用户来说，这笔开销是否划算？

Token成本的量化考量：Token是大语言模型处理文本的基本计量单位，大致上英文每个单词约对应1-1.5个Token，中文每个汉字约对应1-2个Token。回溯30天的历史对话记录，若每天平均产生500-1000个Token的交互内容，30天累计约15,000-30,000个输入Token，加上Codex分析和生成Skill的输出Token，单次审计的总消耗可能在50,000-100,000 Token量级。以GPT-4o当前定价（约$2.5/百万输入Token，$10/百万输出Token）估算，单次完整审计的成本约在$0.5-$2美元之间，对于重度用户而言属于可接受范围。但若频繁执行或历史数据量更大，成本会线性增长，这也是社区用户提出"Token开销是否划算"这一现实问题的根本原因。

不过分享者本人并未正面回应这个问题——作为OpenAI内部员工，Token消耗可能确实不是他需要担心的事情。

这位员工的其他Codex高阶玩法

这位OpenAI员工平时就非常爱"整活"，经常在社交媒体上分享各种Codex的高阶使用技巧。比如：

用Codex配置树莓派：确保设备接入家庭WiFi后能实现远程访问
Loop命令模式：给Codex定义一个完成态，告诉它"成功的样子是什么"，然后让它循环执行直到达成目标

Loop命令模式与目标导向执行：Loop命令模式（也称为"目标导向循环执行"）是AI代理系统中一种重要的任务执行范式，其核心思想来源于控制论中的反馈回路（Feedback Loop）。传统的AI使用方式是单次请求-响应，而Loop模式则让代理持续执行"感知→规划→行动→评估"的循环，直到满足预设的终止条件（即"成功的样子"）。这与强化学习中的策略优化思路高度相似：代理在每次迭代后评估当前状态与目标状态的差距，并据此调整下一步行动。在工程实践中，这种模式被广泛应用于自动化测试、持续集成/持续部署（CI/CD）流水线和复杂的多步骤数据处理任务中。Codex的Loop模式将这一工程概念带入了自然语言交互层面，使非技术用户也能定义和驱动复杂的自动化工作流。

OpenAI员工经常分享Codex使用经验

这些玩法的共同特点是：不把Codex当成简单的问答工具，而是当成一个具备自主判断和持续执行能力的智能代理来使用。

对普通用户的启示：重新定义AI的角色

这个案例给我们的最大启示是：AI工具的价值上限，取决于你如何定义它的角色。

大多数人使用AI的方式还停留在"一问一答"的层面，而这位员工的做法是让AI主动审计你的行为模式，反过来告诉你哪些工作可以被优化。这种"元层面"的使用思路，才是真正释放AI生产力的关键。

如果你也在使用Codex，不妨尝试这个思路：与其每次手动提需求，不如先让AI理解你的工作全貌，再由它来提出优化建议。35行提示词的背后，是一种全新的人机协作范式。

核心要点

OpenAI员工用35行提示词让Codex自动分析30天历史数据，识别重复性工作并打包成可复用的自动化Skill
Codex会智能判断任务是否值得自动化，需满足重复出现、流程稳定等条件才会执行
结合屏幕读取和长期记忆功能，Codex能捕捉用户在对话框之外的重复行为模式
该方案不限于程序员，运营、策划、写作等岗位均可适用
核心启示是将AI从被动问答工具转变为主动审计工作习惯的智能代理

35行提示词让Codex自动优化工作流，OpenAI总裁亲自转发

核心原理：让AI审计你的工作习惯

屏幕读取 + 长期记忆：突破对话框的边界

社区反响与Token成本考量

这位员工的其他Codex高阶玩法

对普通用户的启示：重新定义AI的角色

核心要点

相关推荐

Cursor+Codex双IDE协同：开源项目二开实战方法论

Cursor多Agent实战：50分钟搭建Next.js全栈博客

从零搭建AI软件工厂：Cursor工程师的多Agent协作实战经验