最近GPT-5发布之后,我朋友圈快被刷屏了,各种'炸裂'、'颠覆'满天飞。但你知道我最关心什么吗?写代码到底行不行。正好看到一个开发者做了个挺硬核的实测,用一个企业级的医院监控系统,分别让GPT-5和Claude Sonnet 4来干活,结果还挺出乎意料的。
对,我也看到这个测试了,其实我觉得这个测试项目选得特别好。它是一个医院物资柜的实时监控系统,有3D场景渲染、传感器数据监控、物资进出记录这些功能,前端用TypeScript,后端用Go,是一个典型的企业级全栈项目。你想想,这种项目对AI的要求其实很高,不是说你能补全几行代码就行了,你得理解前后端怎么配合、数据怎么流转。
嗯,而且他设了三个递进难度的任务,我觉得这个设计挺巧妙的。第一个是修Lint错误,就是代码静态检查的报错;第二个是把前端写死的静态数据迁移到后端数据库,变成动态数据;第三个是修一个3D场景的渲染Bug——页面刷新之后3D场景直接崩溃。
对,这三个任务的难度是层层递进的。第一个Lint修复,说白了就是语法和规范层面的问题,AI工具一般都能处理。但第二个就不一样了,你要把前端的假数据删掉,同时在后端建数据库、写API接口、前端再对接上,这是一个跨前后端的系统性工程。第三个更难,WebGL Context Loss是3D Web开发里最头疼的问题之一,浏览器可能因为内存压力把GPU资源回收了,你得正确处理上下文恢复逻辑,不然就黑屏。
好,那我们先说GPT-5的表现。他用的是Cursor编辑器搭配GPT-5,开了推理模式,三个任务一次性提交。速度确实快,很快就给出了修改方案。
速度快是快,但你看它实际干了什么——给一个文件加了Interface定义,给另一个文件加了useCallback,删了一些静态数据。这些操作本身没问题,Lint错误确实修好了。但问题出在后面两个任务上。
对,这是最让我觉得有意思的地方。第二个任务,GPT-5把前端的静态数据删掉了,但是——它没有在后端创建对应的数据库和API接口。你想想这意味着什么?
这就好比你装修房子,把旧家具扔了,但新家具没买回来,房间直接空了。它只做了'破坏'的一半,没做'建设'的另一半。前端数据源没了,页面当然显示不出东西了。第三个3D渲染的Bug也完全没修好,刷新之后照样崩溃。所以最终GPT-5三个任务只完成了一个,完成率33%。
然后同样的项目恢复到原始状态,换Claude Sonnet 4上场。这边用的是VS Code加Buddy AI编程助理。你觉得Claude的处理方式跟GPT-5最大的区别在哪?
最大的区别在于它的工作方式完全不同。Claude Sonnet 4上来不是直接改代码,而是先花时间理解整个项目结构,生成了一个完整的代码库大纲,把目录结构、模块依赖、API调用链路全部梳理了一遍。这就像一个有经验的开发者接手新项目,会先通读架构文档,建立心智模型,然后再动手。虽然前期慢一些,但后面改起来就很精准。
而且它不只是看了指定的两个文件,对吧?
对!它主动跑了npm run lint命令,扫描了整个前端的Lint错误,拿到了精确到行号和错误类型的完整信息。这个行为本身就很关键——它不是被动地看你指给它的文件,而是主动去获取真实的错误信息。
那第二个任务呢?这是GPT-5栽跟头的地方。
这里Claude的表现确实让人印象深刻。它创建了一个全新的data_seeder.go文件,这是后端开发里的标准做法,叫数据种子程序,用来在数据库初始化时填充基础数据。它不光是写了个插入脚本,还正确定义了数据库表结构、处理了数据类型映射、管理了数据库连接的生命周期,然后还更新了main.go入口文件,确保这个种子程序能正确集成到应用启动流程里。
等等,我记得它还做了一件事——自己测试?
你说的是curl测试,对。它改完之后主动用curl命令去调API端点,验证Cabinets和传感器的数据接口是不是正常返回数据。你想想这意味着什么?它不光会写代码,还会模拟开发者的测试行为——跑lint确认语法没问题,执行构建确认编译通过,调API确认功能正常。这是一个完整的'编写-构建-测试-验证'闭环。
这其实就是大家说的从'代码补全助手'到'自主开发代理'的区别。
没错,这是一个质的区别。代码补全助手就是你问它一句它答一句,自主开发代理是它能端到端地完成任务——理解需求、分析架构、写代码、测试、验证,整个流程自己跑通。Claude Sonnet 4在这个测试里展现的就是这种能力。
最终结果,Claude Sonnet 4三个任务全部完成,100%。唯一的小瑕疵是有一个useRef相关的类型警告,但不影响功能。不过有一点要说公道话,Claude的总耗时大概是GPT-5的四倍。
嗯,这个速度差距确实存在。但你想想,在企业级项目里,快但不完整的修改意味着什么?GPT-5删了前端数据没建后端服务,如果这是在生产环境,那就是线上故障。修复这种故障的成本,远远超过多等几分钟让AI把活干完整。软件工程里有句老话叫'欲速则不达',在这个场景里特别贴切。
所以总结一下,这次测试其实揭示了一个核心问题:GPT-5更像是在文件级别做表面修补,而Claude Sonnet 4是在代码库级别做系统性修改。这个理解深度的差距,在简单任务里看不出来,一到全栈协调的复杂场景就暴露了。
对,而且我觉得这个测试给开发者一个很重要的启示——选AI编码工具别只看跑分和营销,一定要拿自己的实际项目去试。不同项目类型、不同复杂度可能结果不一样,但至少在全栈开发这个场景里,能不能理解前后端协作关系、能不能自主验证修改结果,这才是真正决定生产力的东西。
说得好。当然也要补一句,这是单一项目的测试,GPT-5在其他场景可能有不同表现。但至少在写代码这件事上,花拳绣腿和真功夫的差距,确实一测便知。