Claude Sonnet 4.5 vs GPT-5 Codex:软体物理编程实战对决

Claude Sonnet 4.5与GPT-5 Codex用C++复刻经典软体物理游戏的编程对决
B站UP主让Claude Sonnet 4.5与GPT-5 Codex正面对决,用C++复刻1996年经典游戏《Terep 2》的软体物理驾驶效果。测试发现Claude擅长视觉呈现和地形生成,响应更快;GPT-5在物理计算和软体变形效果上更胜一筹。两者初始代码都无法编译,需多轮迭代修复,且在物理参数调优上都存在困难,没有绝对赢家。
一场硬核的AI编程对决
当AI编程助手已经能轻松搭建网页应用时,一个更有趣的问题浮出水面:它们能否胜任真正硬核的编程任务?B站UP主近期发布了一期极具技术含量的对比测试,让Anthropic最新发布的Claude Sonnet 4.5与OpenAI的GPT-5 Codex高性能模型正面交锋,任务是用C++复刻1996年经典游戏《Terep 2》(变形者)的软体物理驾驶模拟效果。

这款经典游戏以其令人惊叹的软体物理车身形变效果闻名,即便以今天的标准来看仍然令人印象深刻。选择这个任务的巧妙之处在于:它不仅需要图形渲染能力,还涉及质量-弹簧物理系统、地形生成、碰撞检测等多个复杂子系统的协同工作,远比常规的网页开发测试更具挑战性。
C++实战:从编译错误到勉强运行
初始代码生成阶段
测试者使用了相同的提示词,要求两个模型用C++制作包含软体物理、简单车辆形变和越野赛道的游戏,并生成所有必要文件。Claude开启了思考模式(Sonnet 4.5),GPT-5 Codex设置为高性能模式,同时按下回车开始。

两个模型都迅速开始规划项目结构。Claude的输出明显更为详尽——不仅生成了大量代码,还贴心地说明了不同Linux发行版的处理方式。Codex则在设计C++质量弹簧物理系统方面展现了条理性。然而,两者的初始代码都无法直接编译运行,均遇到了依赖项和编译错误。
迭代修复过程
测试者将错误信息分别粘贴给两个模型,让它们自行修复,而非传统地去搜索引擎查找解决方案。这个设定非常关键——它模拟了一个业余开发者完全依赖AI编程助手的真实场景。

经过多轮修复后,两个模型都成功产出了可编译运行的程序,但初始效果都不尽如人意:
- Claude Sonnet 4.5:地形渲染不错,有越野感觉,但车辆形状不够理想,移动功能无法使用
- GPT-5 Codex:能通过WASD控制车辆移动,但地形绘制存在问题
测试者坦言对两者都没能绘制出像样的车辆模型感到失望,毕竟在浏览器端的JS测试中,它们至少能画出基本的车辆形状。
C++最终结果对比
经过进一步的反馈迭代,两个模型都有了显著改进:
- Claude的优势:地形更出色,有山峰和山谷,更符合越野赛道要求;车辆能正确跟随地形起伏;工作速度更快,修复问题也更迅速
- Codex的优势:车辆模型更好;软体物理效果更明显,车辆像果冻一样弹跳,更接近《Terep 2》的技术演示效果

切换到Web技术栈:JS与HTML的表现
出于好奇,测试者让两个模型用HTML、JS和CSS完成同样的任务。正如预期,Web技术栈的开发速度快了很多,Claude再次率先完成。

然而有趣的是,不管用什么编程语言,两个模型都出现了相似的bug模式:
- Claude的Web版本:地形和图形风格看起来很棒,但车辆弹簧力设置不当,导致车子不断沉入地面或抖动爆炸。经过四次迭代仍未能完美平衡可驾驶性和物理稳定性
- Codex的Web版本:最终呈现了可能是四次测试中效果最好的结果——软体物理变形效果令人印象深刻,撞击时的形变方式非常接近原版游戏的感觉
核心发现与深度分析
两个模型的编程能力画像
这次测试揭示了Claude与GPT-5在编程能力上的差异化特征:
Claude Sonnet 4.5 擅长UI美化和整体视觉呈现,地形生成更自然,代码文档更详尽,响应速度更快。但在物理参数调优方面表现不够稳定,多次迭代仍难以平衡弹簧系统的各项参数。
GPT-5 Codex 在数学和物理计算方面可能更胜一筹,软体物理的变形效果更接近真实,碰撞响应更合理。但在视觉美化和地形设计方面略逊一筹。
对开发者的启示
你可能没注意到,测试者特别强调Sonnet并非Anthropic的顶级模型(Opus才是),考虑到这一点,Sonnet 4.5的表现已经相当出色。这暗示了一个重要趋势:AI编程助手正在从"能写网页"向"能处理复杂系统级编程"快速演进。
不过,这次测试也暴露了当前AI编程的几个局限性:
- 物理参数调优仍是难题:两个模型都在弹簧力、阻尼系数等参数的平衡上挣扎
- 跨语言一致性问题:相似的bug在C++和JS实现中都出现,说明问题出在算法理解层面而非语言层面
- 需要人类反馈循环:没有一个模型能一次性产出可用结果,都需要多轮迭代
结论:没有绝对赢家,但各有所长
这场Claude vs GPT-5的编程对决很难评出明确的赢家。如果你更看重开发效率和视觉效果,Claude Sonnet 4.5是更好的选择;如果你更关注物理模拟的准确性和数学计算能力,GPT-5 Codex可能更适合你。
对于普通开发者而言,更重要的信号是:AI编程助手已经能够在C++这样的系统级语言中完成相当复杂的图形和物理编程任务。虽然结果还远非完美,但考虑到这是从零开始、几乎无需人工编码的过程,这个进步已经足够令人振奋。
相关推荐
产品体验Qoder vs Cursor实测对比:同样20美金谁更强?
实测对比Qoder和Cursor两款AI IDE,从Agent自主修复能力、人工沟通次数、架构决策等维度评测。Qoder仅需2次沟通完成任务,Cursor需8次。详细分析两者差异,帮你选择最适合的AI编程工具。
产品体验Cursor云Agent演示:打通软件开发全链路瓶颈
深度解析Cursor云Agent最新Demo,展示如何通过云端虚拟机、自动测试产物和全链路控制平面,系统性消除软件开发生命周期中的人类瓶颈,让Agent自主运行、人按需介入。
产品体验Cursor 3.0深度解析:多Agent并行、Design Mode与Best-of-N模型对比
Cursor 3.0正式发布,从AI辅助编程工具进化为Agent舰队指挥中心。本文详解多智能体并行、Design Mode可视化编辑、Best-of-N多模型择优等核心功能,解读AI编程新范式。