Claude Sonnet 4.5 vs GPT-5 Codex：软体物理编程实战对决

一场硬核的AI编程对决

当AI编程助手已经能轻松搭建网页应用时，一个更有趣的问题浮出水面：它们能否胜任真正硬核的编程任务？B站UP主近期发布了一期极具技术含量的对比测试，让Anthropic最新发布的Claude Sonnet 4.5与OpenAI的GPT-5 Codex高性能模型正面交锋，任务是用C++复刻1996年经典游戏《Terep 2》（变形者）的软体物理驾驶模拟效果。

bilibili source

这款经典游戏以其令人惊叹的软体物理车身形变效果闻名，即便以今天的标准来看仍然令人印象深刻。选择这个任务的巧妙之处在于：它不仅需要图形渲染能力，还涉及质量-弹簧物理系统、地形生成、碰撞检测等多个复杂子系统的协同工作，远比常规的网页开发测试更具挑战性。

C++实战：从编译错误到勉强运行

初始代码生成阶段

测试者使用了相同的提示词，要求两个模型用C++制作包含软体物理、简单车辆形变和越野赛道的游戏，并生成所有必要文件。Claude开启了思考模式（Sonnet 4.5），GPT-5 Codex设置为高性能模式，同时按下回车开始。

项目初始构建阶段

两个模型都迅速开始规划项目结构。Claude的输出明显更为详尽——不仅生成了大量代码，还贴心地说明了不同Linux发行版的处理方式。Codex则在设计C++质量弹簧物理系统方面展现了条理性。然而，两者的初始代码都无法直接编译运行，均遇到了依赖项和编译错误。

迭代修复过程

测试者将错误信息分别粘贴给两个模型，让它们自行修复，而非传统地去搜索引擎查找解决方案。这个设定非常关键——它模拟了一个业余开发者完全依赖AI编程助手的真实场景。

修复编译问题后的初步结果

经过多轮修复后，两个模型都成功产出了可编译运行的程序，但初始效果都不尽如人意：

Claude Sonnet 4.5：地形渲染不错，有越野感觉，但车辆形状不够理想，移动功能无法使用
GPT-5 Codex：能通过WASD控制车辆移动，但地形绘制存在问题

测试者坦言对两者都没能绘制出像样的车辆模型感到失望，毕竟在浏览器端的JS测试中，它们至少能画出基本的车辆形状。

C++最终结果对比

经过进一步的反馈迭代，两个模型都有了显著改进：

Claude的优势：地形更出色，有山峰和山谷，更符合越野赛道要求；车辆能正确跟随地形起伏；工作速度更快，修复问题也更迅速
Codex的优势：车辆模型更好；软体物理效果更明显，车辆像果冻一样弹跳，更接近《Terep 2》的技术演示效果

并排对比两个模型的C++实现

切换到Web技术栈：JS与HTML的表现

出于好奇，测试者让两个模型用HTML、JS和CSS完成同样的任务。正如预期，Web技术栈的开发速度快了很多，Claude再次率先完成。

Web技术栈测试

然而有趣的是，不管用什么编程语言，两个模型都出现了相似的bug模式：

Claude的Web版本：地形和图形风格看起来很棒，但车辆弹簧力设置不当，导致车子不断沉入地面或抖动爆炸。经过四次迭代仍未能完美平衡可驾驶性和物理稳定性
Codex的Web版本：最终呈现了可能是四次测试中效果最好的结果——软体物理变形效果令人印象深刻，撞击时的形变方式非常接近原版游戏的感觉

核心发现与深度分析

两个模型的编程能力画像

这次测试揭示了Claude与GPT-5在编程能力上的差异化特征：

Claude Sonnet 4.5 擅长UI美化和整体视觉呈现，地形生成更自然，代码文档更详尽，响应速度更快。但在物理参数调优方面表现不够稳定，多次迭代仍难以平衡弹簧系统的各项参数。

GPT-5 Codex 在数学和物理计算方面可能更胜一筹，软体物理的变形效果更接近真实，碰撞响应更合理。但在视觉美化和地形设计方面略逊一筹。

对开发者的启示

你可能没注意到，测试者特别强调Sonnet并非Anthropic的顶级模型（Opus才是），考虑到这一点，Sonnet 4.5的表现已经相当出色。这暗示了一个重要趋势：AI编程助手正在从"能写网页"向"能处理复杂系统级编程"快速演进。

不过，这次测试也暴露了当前AI编程的几个局限性：

物理参数调优仍是难题：两个模型都在弹簧力、阻尼系数等参数的平衡上挣扎
跨语言一致性问题：相似的bug在C++和JS实现中都出现，说明问题出在算法理解层面而非语言层面
需要人类反馈循环：没有一个模型能一次性产出可用结果，都需要多轮迭代

结论：没有绝对赢家，但各有所长

这场Claude vs GPT-5的编程对决很难评出明确的赢家。如果你更看重开发效率和视觉效果，Claude Sonnet 4.5是更好的选择；如果你更关注物理模拟的准确性和数学计算能力，GPT-5 Codex可能更适合你。

对于普通开发者而言，更重要的信号是：AI编程助手已经能够在C++这样的系统级语言中完成相当复杂的图形和物理编程任务。虽然结果还远非完美，但考虑到这是从零开始、几乎无需人工编码的过程，这个进步已经足够令人振奋。