Codex vs Claude Code:半年后我为什么又换回来了

作者因Claude Code自作主张改代码而重新装回Codex
作者使用Claude Code半年后,因其频繁自作主张修改未要求的代码而重新安装Codex。基于一篇评测,GPT 5.5驱动的Codex在准确性和可控性上表现更优。文章分析了两者在确定性与自由度上的权衡,并分享了三个优化Codex使用的配置建议。
一个让我重新装回 Codex 的瞬间
用 Claude Code 写代码半年,我没碰过一次 Codex。直到前两天看到一篇评测里的一句话:
让 Claude Code 改一个 bug,他顺手把你旁边几个文件也"优化"了一下。
这事我太熟了。看完我就把 Codex 装回来了。
这篇评测的作者叫 Evand,他用 GPT 5.5 重新测了两周 Codex,结论是:Codex 在很多任务上跟 Claude Code 已经是一个量级了,某些场景下还更快、更准。
"更准"这两个字戳到我了。用 Claude Code 的时候最怕的就是它自作主张——你只想让它修一个小问题,它给你 diff 出来一看,半个项目都飘红了。然后你就得一行一行看,哪些是真的要改的,哪些是它瞎动的。
Claude Code 的「自作主张」行为,本质上源于 Anthropic 在训练时赋予模型更高的「代理自主性」(Agentic Autonomy)。这类模型被鼓励在完成任务时进行更广泛的上下文推理——它不只看你指向的那一行代码,而是扫描整个代码库的依赖关系、命名规范、潜在的技术债务,然后「顺手」一并处理。这种设计哲学在 Anthropic 的 Constitutional AI 框架下有其合理性:让模型主动发现并修复潜在问题,而不是机械执行指令。但对于日常开发者来说,这种「好意」往往制造麻烦——你需要花额外时间审查那些你根本没要求改动的 diff,而这些改动有时还会引入新的 bug。

确定性 vs 自由度:一个权衡问题
坦率地讲,这不是谁好谁坏的问题,而是一个权衡。
Claude Code 给模型更多自由度。好处是它能帮你顺手解决你没意识到的问题,副作用是它也可能改坏你不想动的东西。
Codex 反过来——让它改哪就改哪,用起来很安心。但你想让它往前一步时,它也不会动。
对于喜欢确定性、不喜欢被打扰的开发者来说,Codex 的行为模式显然更让人放心。而对于愿意让 AI 多做一点的人,Claude Code 的主动性是优势——前提是你能接受它偶尔越界。
三个让 Codex 跑得更好的配置
Evand 在文章中分享了三个实用配置,我觉得思路都很值得参考。
1. 思考多一点,执行快一点
Fast Mode 一直开着,同时在 Plan 模式下开 Extra High Thinking,正常模式下开 High Reasoning。
这个组合的意思是:让模型在制定计划那一步多花点脑子,到了执行阶段反而快一点。写代码这事,想清楚本来就比写得快重要。
2. 接上 Playwright MCP,让 AI 自己验证自己
给 Codex 接上 Playwright MCP,让它能开浏览器、自己测自己写的东西。这点其实很关键——如果 AI 能跑、能点、能看到结果,它就不会瞎编一个"看起来对
相关推荐
产品体验Qoder vs Cursor实测对比:同样20美金谁更强?
实测对比Qoder和Cursor两款AI IDE,从Agent自主修复能力、人工沟通次数、架构决策等维度评测。Qoder仅需2次沟通完成任务,Cursor需8次。详细分析两者差异,帮你选择最适合的AI编程工具。
产品体验Cursor云Agent演示:打通软件开发全链路瓶颈
深度解析Cursor云Agent最新Demo,展示如何通过云端虚拟机、自动测试产物和全链路控制平面,系统性消除软件开发生命周期中的人类瓶颈,让Agent自主运行、人按需介入。
产品体验Cursor 3.0深度解析:多Agent并行、Design Mode与Best-of-N模型对比
Cursor 3.0正式发布,从AI辅助编程工具进化为Agent舰队指挥中心。本文详解多智能体并行、Design Mode可视化编辑、Best-of-N多模型择优等核心功能,解读AI编程新范式。