播客频道 | 全栈实测：GPT-5 vs Claude 4编码能力差距有多大？

最近GPT-5发布之后，我朋友圈快被刷屏了，各种'炸裂'、'颠覆'满天飞。但你知道我最关心什么吗？写代码到底行不行。正好看到一个开发者做了个挺硬核的实测，用一个企业级的医院监控系统，分别让GPT-5和Claude Sonnet 4来干活，结果还挺出乎意料的。对，我也看到这个测试了，其实我觉得这个测试项目选得特别好。它是一个医院物资柜的实时监控系统，有3D场景渲染、传感器数据监控、物资进出记录这些功能，前端用TypeScript，后端用Go，是一个典型的企业级全栈项目。你想想，这种项目对AI的要求其实很高，不是说你能补全几行代码就行了，你得理解前后端怎么配合、数据怎么流转。嗯，而且他设了三个递进难度的任务，我觉得这个设计挺巧妙的。第一个是修Lint错误，就是代码静态检查的报错；第二个是把前端写死的静态数据迁移到后端数据库，变成动态数据；第三个是修一个3D场景的渲染Bug——页面刷新之后3D场景直接崩溃。对，这三个任务的难度是层层递进的。第一个Lint修复，说白了就是语法和规范层面的问题，AI工具一般都能处理。但第二个就不一样了，你要把前端的假数据删掉，同时在后端建数据库、写API接口、前端再对接上，这是一个跨前后端的系统性工程。第三个更难，WebGL Context Loss是3D Web开发里最头疼的问题之一，浏览器可能因为内存压力把GPU资源回收了，你得正确处理上下文恢复逻辑，不然就黑屏。好，那我们先说GPT-5的表现。他用的是Cursor编辑器搭配GPT-5，开了推理模式，三个任务一次性提交。速度确实快，很快就给出了修改方案。速度快是快，但你看它实际干了什么——给一个文件加了Interface定义，给另一个文件加了useCallback，删了一些静态数据。这些操作本身没问题，Lint错误确实修好了。但问题出在后面两个任务上。对，这是最让我觉得有意思的地方。第二个任务，GPT-5把前端的静态数据删掉了，但是——它没有在后端创建对应的数据库和API接口。你想想这意味着什么？这就好比你装修房子，把旧家具扔了，但新家具没买回来，房间直接空了。它只做了'破坏'的一半，没做'建设'的另一半。前端数据源没了，页面当然显示不出东西了。第三个3D渲染的Bug也完全没修好，刷新之后照样崩溃。所以最终GPT-5三个任务只完成了一个，完成率33%。然后同样的项目恢复到原始状态，换Claude Sonnet 4上场。这边用的是VS Code加Buddy AI编程助理。你觉得Claude的处理方式跟GPT-5最大的区别在哪？最大的区别在于它的工作方式完全不同。Claude Sonnet 4上来不是直接改代码，而是先花时间理解整个项目结构，生成了一个完整的代码库大纲，把目录结构、模块依赖、API调用链路全部梳理了一遍。这就像一个有经验的开发者接手新项目，会先通读架构文档，建立心智模型，然后再动手。虽然前期慢一些，但后面改起来就很精准。而且它不只是看了指定的两个文件，对吧？对！它主动跑了npm run lint命令，扫描了整个前端的Lint错误，拿到了精确到行号和错误类型的完整信息。这个行为本身就很关键——它不是被动地看你指给它的文件，而是主动去获取真实的错误信息。那第二个任务呢？这是GPT-5栽跟头的地方。这里Claude的表现确实让人印象深刻。它创建了一个全新的data_seeder.go文件，这是后端开发里的标准做法，叫数据种子程序，用来在数据库初始化时填充基础数据。它不光是写了个插入脚本，还正确定义了数据库表结构、处理了数据类型映射、管理了数据库连接的生命周期，然后还更新了main.go入口文件，确保这个种子程序能正确集成到应用启动流程里。等等，我记得它还做了一件事——自己测试？你说的是curl测试，对。它改完之后主动用curl命令去调API端点，验证Cabinets和传感器的数据接口是不是正常返回数据。你想想这意味着什么？它不光会写代码，还会模拟开发者的测试行为——跑lint确认语法没问题，执行构建确认编译通过，调API确认功能正常。这是一个完整的'编写-构建-测试-验证'闭环。这其实就是大家说的从'代码补全助手'到'自主开发代理'的区别。没错，这是一个质的区别。代码补全助手就是你问它一句它答一句，自主开发代理是它能端到端地完成任务——理解需求、分析架构、写代码、测试、验证，整个流程自己跑通。Claude Sonnet 4在这个测试里展现的就是这种能力。最终结果，Claude Sonnet 4三个任务全部完成，100%。唯一的小瑕疵是有一个useRef相关的类型警告，但不影响功能。不过有一点要说公道话，Claude的总耗时大概是GPT-5的四倍。嗯，这个速度差距确实存在。但你想想，在企业级项目里，快但不完整的修改意味着什么？GPT-5删了前端数据没建后端服务，如果这是在生产环境，那就是线上故障。修复这种故障的成本，远远超过多等几分钟让AI把活干完整。软件工程里有句老话叫'欲速则不达'，在这个场景里特别贴切。所以总结一下，这次测试其实揭示了一个核心问题：GPT-5更像是在文件级别做表面修补，而Claude Sonnet 4是在代码库级别做系统性修改。这个理解深度的差距，在简单任务里看不出来，一到全栈协调的复杂场景就暴露了。对，而且我觉得这个测试给开发者一个很重要的启示——选AI编码工具别只看跑分和营销，一定要拿自己的实际项目去试。不同项目类型、不同复杂度可能结果不一样，但至少在全栈开发这个场景里，能不能理解前后端协作关系、能不能自主验证修改结果，这才是真正决定生产力的东西。说得好。当然也要补一句，这是单一项目的测试，GPT-5在其他场景可能有不同表现。但至少在写代码这件事上，花拳绣腿和真功夫的差距，确实一测便知。

全栈实测：GPT-5 vs Claude 4编码能力差距有多大？

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报