AI从零构建真人快打:Claude、Codex、Gemini三方实战对决

当三大AI巨头——Claude Opus 4.6、GPT Codex和Gemini——从零开始构建一款真人快打游戏时,会发生什么?一位B站UP主进行了这场硬核实验,不仅让AI写代码造游戏,还让AI亲自上手对战,最终甚至接入了真正的游戏引擎。结果令人惊艳,也暴露了各家AI在游戏开发能力上的明显差异。
实验设计:三轮递进式挑战
这次测试并非简单的代码生成对比,而是设计了三个递进难度的挑战:
- 第一轮:让Claude和GPT Codex各自从零构建一款双人真人快打网页游戏
- 第二轮:让Claude和Gemini通过浏览器扩展,亲自操控游戏角色对战
- 第三轮:让Claude连接Godot MCP服务器,在真正的游戏引擎中构建格斗游戏
这种设计巧妙地测试了AI在代码生成、环境交互和工具调用三个维度的综合能力。
第一轮:网页游戏构建——两种截然不同的开发风格
GPT Codex:沉默的实干家
GPT Codex(5.2版本,High模式)的表现非常直接——什么都不问,直接开干。仅用约12分钟就完成了整个游戏的构建。最终产出了一款带骨骼绑定动画的双人格斗游戏,角色造型还算不错,支持跳跃、蹲下、出拳等基本操作,并为两位玩家分配了不同的键位控制方案。
骨骼绑定动画(Skeletal Animation)是游戏开发中最主流的角色动画技术。其原理是在角色模型内部构建一套虚拟骨骼系统,通过移动和旋转骨骼节点来驱动外层网格变形,从而实现自然的角色运动。相比逐帧绘制的精灵动画,骨骼动画的优势在于可以用极少的数据量实现流畅的动作过渡,并且支持动画混合(Blending)——比如角色可以同时执行行走和挥拳的动作。GPT Codex能在12分钟内生成带骨骼绑定的角色,说明其代码生成能力已经覆盖了相当复杂的图形编程逻辑。

不过GPT Codex的作品也有明显的粗糙之处:角色面朝摄像头而非对手,终结技触发后基本没有视觉效果——所谓的"致命拥抱"看起来更像是两个角色尴尬地抱在一起。
Claude Opus 4.6:谨慎的提问者
Claude的风格截然不同。它在开始编码前主动询问了一系列关键问题:网络技术选型(点对点还是服务器)、角色视觉风格(程序化3D、精灵2D还是着色器纹理)、角色数量等。这种"先问后做"的方式虽然多花了几分钟沟通成本,但最终在约15分钟内交出了一份更精致的作品。
Claude构建的游戏在动画流畅度上明显优于GPT版本,角色站姿更具格斗游戏的气势,整体视觉效果更胜一筹。
第二轮:AI亲自操控游戏对战——Claude碾压Gemini
这一轮是整个实验中最有趣的部分。测试者让Claude和Gemini分别通过浏览器扩展控制游戏角色进行对战,Claude被指定为玩家二,Gemini被指定为玩家一。
AI通过浏览器扩展操控游戏,本质上是利用了一种称为"计算机使用"(Computer Use)的能力。这类技术允许AI模型像人类一样感知屏幕内容(通过截图识别),并模拟键盘和鼠标操作来与应用程序交互。Anthropic的Claude和Google的Gemini都推出了各自的浏览器控制方案,但实现路径有所不同。Claude的方案通过截图分析+动作指令的循环来实现交互,而Gemini的Ultra套餐中集成了类似的浏览器自动化能力。这种能力的核心挑战在于实时性——游戏需要毫秒级的反应速度,而AI的"截图→分析→决策→执行"循环通常需要数百毫秒甚至数秒,这也解释了为什么AI操控游戏时的表现远不如人类玩家流畅。

结果出乎意料又在情理之中:
- Gemini几乎完全无法操作游戏,很快就"放弃"了,没有任何有效的游戏行为
- Claude虽然搞混了玩家编号(被指定为玩家二却控制了玩家一),但确实展现出了真实的游戏操控能力——移动、出拳、踢腿、打连招,甚至尝试释放终结技
经过177步操作,Claude控制的角色赢得了比赛。这里出现了一个有趣的问题:Claude被指派为玩家二,却控制了玩家一并获胜,那这算谁赢?从结果看,Claude展现了远超Gemini的环境交互能力,但在指令理解的精确度上仍有提升空间。
说个细节,使用Gemini的浏览器控制功能需要Ultra套餐,而Claude则不需要最高级别的订阅计划。
第三轮:接入Godot引擎——从网页游戏到专业游戏开发
从浏览器到游戏引擎的飞跃
为了解决网页版游戏的延迟问题,测试者决定让Claude通过Cloud Code连接Godot MCP服务器,在真正的游戏引擎中构建格斗游戏。
Godot是一款完全免费且开源的跨平台游戏引擎,由阿根廷开发者Juan Linietsky和Ariel Manzur于2014年首次发布。与Unity和Unreal Engine这两大商业引擎不同,Godot采用MIT许可证,开发者无需支付任何授权费用或收入分成。Godot使用自研的GDScript脚本语言(语法类似Python),同时也支持C#和C++。近年来,由于Unity在2023年引发的运行时费用争议,大量独立开发者转向Godot,使其社区规模和生态系统快速增长。选择Godot作为AI游戏开发的测试平台,既体现了其在独立游戏开发领域的代表性,也因为其开源特性更便于MCP服务器的开发和集成。
MCP(Model Context Protocol,模型上下文协议)是由Anthropic于2024年底推出的开放标准协议,旨在为AI模型提供一种统一的方式来连接和调用外部工具、数据源和服务。可以将MCP理解为AI世界的"USB接口"——无论是数据库、文件系统、API还是像Godot这样的游戏引擎,只要实现了MCP服务器端,AI就能通过标准化的方式与之交互。在本实验中,Claude通过MCP服务器直接操控Godot引擎的编辑器功能,包括创建场景节点、编写GDScript脚本、配置资源引用等,这意味着AI不再局限于生成代码文本,而是能够像人类开发者一样直接在IDE中操作。

安装MCP服务器的过程本身就很有意思——测试者直接把Godot MCP服务器的链接粘贴给Claude,让它自己想办法完成安装。大约15分钟后,Claude成功在Godot引擎中构建了一个可运行的格斗游戏原型。
调试与迭代过程
过程并非一帆风顺。游戏首次运行就崩溃了,但将报错信息反馈给Claude后,它能够利用MCP工具自行检查和修复错误。经过两轮调试,游戏成功运行,包含了角色选择界面(刘康、蝎子、雷电、绝对零度等经典角色)和基本的战斗系统。
更令人印象深刻的是,Claude在调试过程中甚至自己操控游戏来验证功能是否正常——它真的在"玩"自己写的游戏。
引入3D资产的挑战
测试者进一步尝试让Claude通过SketchFab API获取3D模型资产,但这一步遇到了困难。SketchFab是全球最大的3D模型分享和交易平台,拥有超过500万个3D模型资源,涵盖游戏角色、建筑、道具等各类资产。其提供的REST API允许开发者通过程序化方式搜索、预览和下载3D模型,支持多种格式输出包括FBX、glTF、OBJ等。在AI辅助游戏开发的语境下,如果AI能够自主通过SketchFab API获取所需的3D资产,就意味着从"设计→找素材→整合→调试"的完整开发流程都可以由AI驱动。然而本实验中这一步未能成功,反映出AI在处理复杂的第三方API认证、文件下载和格式转换等多步骤任务链时仍存在局限。
最终采用了折中方案:手动下载FBX格式的3D角色模型和动画文件(包括呼吸待机、飞踢、MMA踢腿、出拳、四连拳等),放入项目文件夹后让Claude来实现整合。
这个过程中最棘手的问题是角色一直卡在T-Pose不动。T-Pose(T姿势)是3D角色建模中的标准参考姿势,角色双臂水平伸展、双腿直立,整体呈字母"T"形。这个姿势是骨骼绑定的起点,所有动画都是基于T-Pose的骨骼偏移来计算的。在游戏开发中,"角色卡在T-Pose"是一个极为常见的bug,通常意味着动画系统未能正确加载或播放指定的动画片段,角色因此回退到默认的绑定姿势。本实验中遇到的问题更为具体:FBX文件中每个动画轨道都包含了一个T-Pose作为默认动画,而动画播放器错误地引用了这个默认姿势而非实际的战斗动画,这是3D资产从DCC工具(如Blender、Maya)导出时的常见陷阱。解决这个命名和引用问题后,游戏终于能正常触发各种战斗动画了。
三大AI游戏开发能力对比
| 维度 | Claude Opus 4.6 | GPT Codex | Gemini Pro |
|---|---|---|---|
| 代码生成速度 | 约15分钟 | 约12分钟 | 未单独测试 |
| 视觉质量 | ★★★★☆ | ★★★☆☆ | - |
| 游戏交互能力 | 能操控游戏 | - | 几乎无法操作 |
| 工具调用 | 成功接入Godot | - | - |
| 开发风格 | 先问后做 | 直接执行 | - |
综合来看,Claude Opus 4.6在这场全方位测试中展现了最强的综合能力:不仅代码质量更高,还能通过浏览器扩展操控游戏,更能接入专业游戏引擎进行开发。GPT Codex在速度和执行力上有优势,但产出质量略逊。Gemini在交互操控环节表现最弱。
AI游戏开发带来的启示
这个实验揭示了几个值得关注的趋势:
-
AI已经能在分钟级别内构建可玩的游戏原型,这对独立开发者和快速原型验证意义重大。传统游戏开发中,即使是一个简单的格斗游戏原型,也需要程序员花费数天时间搭建角色控制、碰撞检测、动画状态机等基础系统。AI将这个过程压缩到15分钟以内,意味着游戏设计师可以在一天之内验证数十个玩法创意,极大地加速了从概念到可玩原型的迭代周期。
-
MCP协议正在成为AI连接专业工具的桥梁,Claude接入Godot引擎的案例展示了AI从"写代码"到"用工具"的进化。这种转变的意义在于,AI不再只是一个代码生成器,而是逐步成为一个能够操作完整开发工具链的智能体(Agent)。未来随着更多专业软件实现MCP服务器端,AI有望直接操控Photoshop处理贴图、用Blender建模、在Wwise中设计音效,形成覆盖游戏开发全流程的AI工作流。
-
AI的环境感知和操控能力差异巨大,Claude能玩游戏而Gemini几乎无法操作,说明各家AI在实时交互上的技术路线差异显著
-
人机协作仍是当前最优解——3D资产整合环节需要人工介入,纯AI端到端完成复杂游戏开发还有距离
从"让AI写游戏"到"让AI玩游戏"再到"让AI用专业引擎做游戏",这场实验为我们勾勒出了AI辅助游戏开发的完整图景。当这些能力进一步成熟和融合,"一个人+一个AI=一个游戏工作室"或许真的不再遥远。
相关推荐

OpenAI Codex数据分析插件实战:从数据采集到报告交付全流程
深度解析OpenAI Codex数据分析插件的核心能力,包括跨系统数据整合、智能图表生成、数据溯源机制及Google Slides模板化导出,探讨AI如何重塑数据分析工作流。

OpenAI Codex创意生产插件:AI如何革新营销素材制作流程
深度解析OpenAI Codex创意生产插件的核心功能,包括AI产品图片生成、Remix风格调整、一键生成宣传册,以及与Canva深度集成的可编辑输出,全面提升营销素材制作效率。

用ChatGPT备战南极骑行:AI如何助力极限探险
一位探险家用ChatGPT备战史无前例的南极独自骑行挑战。从装备减重、训练计划整合到紧急故障排除,详解AI如何在极限探险中充当全能助手,开创数据驱动的探险新范式。