李博!上次你跟我安利Codex,说是写代码神器,我还没来得及试呢,结果最近看到一个消息把我整懵了。
哈哈你说的是不是Codex负责人那个访谈?
对对对,就那个。他说Codex上大多数任务已经不是编程任务了?我当时就想,啊?这名字里不是带个code吗?
嘿,你还别说,Codex这个词本义就是「书」,拉丁语来的。所以人家一开始格局就大,只是我们自己把它想窄了。
行行行,你拉丁语都搬出来了。那你给我讲讲,它到底怎么从一个代码工具变成通用智能体的?
其实Codex最早的版本大概两年前就有了,叫Codex Web。逻辑很简单——你在网页上提个需求,它自动去看代码仓库,分析要改什么,然后在GitHub上提一个PR。本质上就是把一个初级程序员的日常工作自动化了。
听起来挺好的啊,为什么后来要转型?
摩擦太大。你想啊,每个程序员本地都有自己精心配置的开发环境,各种插件、各种设置,要在云端完美复现这一套,太难了。而且当时模型的可靠性也撑不住长时间任务,干着干着就跑偏了。
真正的转折点是GPT-5,尤其是5.2版本。这个模型在长周期任务上有个阶跃式的提升。
等会儿,长周期任务具体是什么意思?
就是那种需要好几个小时甚至好几天才能完成的复杂任务。以前的模型有个毛病叫「目标漂移」,聊着聊着就忘了自己最初要干嘛。GPT-5.2通过改进注意力机制和更长的有效上下文窗口,基本解决了这个问题。
嗯,这个我有体感。我之前用AI帮我写产品文档,写到第三页它就开始自由发挥了,完全不管前面定的框架。
哈哈对,就是这种。但你知道真正让Codex团队顿悟的是什么吗?他们发现一个关键事实——即便是软件工程师,真正写代码的时间也只占20%到30%。
真的假的?那剩下的时间在干嘛?
理解系统架构、处理工单、调查Bug、处理线上故障、开会讨论、做决策……全是信息处理和协调的工作。当Codex开始接入Notion、Slack这些工具来提升编码效果的时候,团队突然意识到——我们手里这个东西,远不止是个编码工具,它是一个通用的AI智能体平台。
等等,你说的AI智能体和我们平时用的ChatGPT那种聊天机器人,区别在哪?
本质区别。聊天机器人是被动的,你问它答。但智能体能自主规划、调用工具、感知环境。它会把一个复杂目标拆成好多子任务,然后依次调用搜索引擎、数据库、各种API去完成,中间还会根据结果动态调整计划。
这不就是……一个能干活的实习生嘛!
而且是同时能干好几份活的实习生。我跟你说那个让Codex负责人彻底震撼的故事——他们首席产品经理Alexander在准备产品发布的时候,同时跑着好几个Codex智能体。
有的在追踪各项变更状态,有的在Slack上催同事进度,有的在汇总用户反馈更新文档。Alexander一边跟老板开会,智能体们一边在后台把活全干完了。
我天,这个场景我太有共鸣了。我每次产品发布前都要手动翻几十个Slack频道,查GitHub上的PR状态,整理各方反馈——光这些协调工作就能耗掉我一整天。
对吧!而且Codex负责人Thibaut自己每天给Codex发超过100个任务。
一百个?!
一百个。每天早上9点自动扫描Gmail、Notion、日历,生成当日简报标记风险项。还有团队状态追踪、个性化新闻推送、自动整理桌面文件……他管这叫「个人参谋长模式」。
你们研究员就是会起名字。不过说实话,这里面很多事情确实不是「以前慢现在快」的问题。
你get到了。Thibaut原话说的是——很多事情以前根本不会去做,因为觉得不值得麻烦别人。现在终于可以做了。这才是AI生产力最深刻的变化。
诶对了,他还演示了一个特别有意思的例子,面包地图那个你看了吗?
看了看了!他是个欧洲人嘛,搬到旧金山觉得面包贵得离谱。然后他就用语音跟Codex说,帮我找旧金山所有能买到的面包,做张地图,标上价格。五分钟出了个完整表格,再说一句「做成网页」,四分钟一个带交互地图的网站就出来了。
这就是所谓的「个人软件」时代吧?每个人都能为自己的需求定制工具,不用写一行代码。
没错。Karpathy说的Software 2.0——编程的本质从写代码变成描述意图。这个趋势现在是真的在发生了。
但是李博,我站在产品经理的角度想一个问题——企业真的敢用吗?你让一个AI智能体在公司内部自由行动,万一它删了敏感文件,或者把机密信息发出去了呢?
你这个问题问到点子上了。Thibaut自己说的,企业采用最大的瓶颈不是模型能力,而是信任。
那他们怎么解决?
三层安全机制。第一层是沙盒——智能体默认在隔离环境里跑,只能访问你指定的文件夹,网络访问都可以关掉。第二层是企业级权限控制,跟公司内部信息分级一样,可以设只读权限。
第三层最有意思——叫Auto Review,自动审查。他们搞了一个独立的「裁判」智能体,实时盯着主智能体的每一步操作,发现高风险行为立刻叫停。
用AI监督AI?
对,类似金融行业的「四眼原则」,重要操作必须两个独立主体确认。这其实也是AI对齐研究的一个重要实践方向。
嗯,这个思路我觉得挺靠谱的。那使用上有什么技巧吗?我怕我上手了不知道怎么用好。
Thibaut有个特别好的比喻——把Codex当作一个刚入职的聪明同事。它什么都不知道,但学得很快。你得给它精确的指令,比如「做一个10页的演示文稿,前两页概述,中间六页技术分析,最后两页开放问题」。
就跟我带新人写PRD一样嘛。
你们产品经理就知道PRD,哈哈。但是有一点他特别强调——最大的误区是过度委托。
什么意思?
就是你不能把所有事情都甩给它,包括你自己的理解。如果你不再亲自去理解问题,最终会失去判断力。他原话说的是「做工作的人才是学到东西的人」。
这句话说得好。工具再强,脑子不能外包。
对。而且他们刚推出了一个叫/goal的新模式,这个才是真正让我兴奋的东西。用户可以设定一个长期目标,智能体会持续工作数小时、数天甚至数周,直到目标达成。
数周?!它不会中间忘了自己在干嘛吗?
这就是GPT-5.2的长周期能力派上用场的地方了。智能体需要长期记忆管理、错误恢复、资源调度,这些能力以前的模型根本做不到。已经有用户用它完成了数学突破和大规模程序重写。
所以Thibaut描绘的终极愿景是什么?AI智能体24/7不停地跑?
没错。不再是「接任务-完成任务」的模式,而是持续运行,主动发现有价值的工作去做。你甚至不需要读邮件,智能体帮你读,只在真正重要的事情上才来找你。
他有句话我印象特别深——「你不再需要在十几个应用里大海捞针,针已经被整理好了,放在你的晨间简报里。」
我觉得这个方向确实是对的。作为一个每天被Slack、邮件、文档淹没的产品经理,我是真的需要一个「参谋长」帮我把信息噪音过滤掉。
嗯,而且你想想,Codex这个名字虽然带code,但它本义是「书」——一个远比代码更通用的概念。它现在的定位就是通用知识工作加速器,不是要取代人的思考,是要解放人的注意力。
行,你说服我了。今晚回去我就试试,先把我每周最痛苦的那个跨部门状态汇总交给它。要是好用,我请你喝咖啡。
得了吧,你那杯咖啡的钱还不如让Codex帮你做张旧金山咖啡地图呢,哈哈。