Codex vs Claude Code：半年后我为什么又换回来了

一个让我重新装回 Codex 的瞬间

用 Claude Code 写代码半年，我没碰过一次 Codex。直到前两天看到一篇评测里的一句话：

让 Claude Code 改一个 bug，他顺手把你旁边几个文件也"优化"了一下。

这事我太熟了。看完我就把 Codex 装回来了。

这篇评测的作者叫 Evand，他用 GPT 5.5 重新测了两周 Codex，结论是：Codex 在很多任务上跟 Claude Code 已经是一个量级了，某些场景下还更快、更准。

"更准"这两个字戳到我了。用 Claude Code 的时候最怕的就是它自作主张——你只想让它修一个小问题，它给你 diff 出来一看，半个项目都飘红了。然后你就得一行一行看，哪些是真的要改的，哪些是它瞎动的。

Claude Code 的「自作主张」行为，本质上源于 Anthropic 在训练时赋予模型更高的「代理自主性」（Agentic Autonomy）。这类模型被鼓励在完成任务时进行更广泛的上下文推理——它不只看你指向的那一行代码，而是扫描整个代码库的依赖关系、命名规范、潜在的技术债务，然后「顺手」一并处理。这种设计哲学在 Anthropic 的 Constitutional AI 框架下有其合理性：让模型主动发现并修复潜在问题，而不是机械执行指令。但对于日常开发者来说，这种「好意」往往制造麻烦——你需要花额外时间审查那些你根本没要求改动的 diff，而这些改动有时还会引入新的 bug。

Codex vs Claude Code代码修改对比

确定性 vs 自由度：一个权衡问题

坦率地讲，这不是谁好谁坏的问题，而是一个权衡。

Claude Code 给模型更多自由度。好处是它能帮你顺手解决你没意识到的问题，副作用是它也可能改坏你不想动的东西。

Codex 反过来——让它改哪就改哪，用起来很安心。但你想让它往前一步时，它也不会动。

对于喜欢确定性、不喜欢被打扰的开发者来说，Codex 的行为模式显然更让人放心。而对于愿意让 AI 多做一点的人，Claude Code 的主动性是优势——前提是你能接受它偶尔越界。

三个让 Codex 跑得更好的配置

Evand 在文章中分享了三个实用配置，我觉得思路都很值得参考。

1. 思考多一点，执行快一点

Fast Mode 一直开着，同时在 Plan 模式下开 Extra High Thinking，正常模式下开 High Reasoning。

这个组合的意思是：让模型在制定计划那一步多花点脑子，到了执行阶段反而快一点。写代码这事，想清楚本来就比写得快重要。

2. 接上 Playwright MCP，让 AI 自己验证自己

给 Codex 接上 Playwright MCP，让它能开浏览器、自己测自己写的东西。这点其实很关键——如果 AI 能跑、能点、能看到结果，它就不会瞎编一个"看起来对

Codex vs Claude Code：半年后我为什么又换回来了

一个让我重新装回 Codex 的瞬间

确定性 vs 自由度：一个权衡问题

三个让 Codex 跑得更好的配置

1. 思考多一点，执行快一点

2. 接上 Playwright MCP，让 AI 自己验证自己

相关推荐

Qoder vs Cursor实测对比：同样20美金谁更强？

Cursor云Agent演示：打通软件开发全链路瓶颈

Cursor 3.0深度解析：多Agent并行、Design Mode与Best-of-N模型对比