ChatGPT vs Gemini vs Claude：三大AI从零复刻经典Roblox游戏实测对比

当ChatGPT、Gemini和Claude分别接到任务——从零开始复刻经典Roblox老游戏，结果会怎样？一位创作者用实际测试给出了答案。这不仅是一次怀旧之旅，更是对当前主流AI编程能力的一次硬核横评。

测试规则：三款AI各领一款经典Roblox游戏

这次测试的规则很明确：三款AI模型各自负责复刻一款经典Roblox游戏，不做简单的文字生成，而是要求它们真正写出可运行的游戏代码。具体分工如下：

ChatGPT（Codex）：复刻 Murder Mystery 2
Gemini（Canvas / 2.5 Flash）：复刻 Natural Disaster Survival（自然灾害生存）
Claude（Code模式）：复刻 MeepCity

对于不熟悉Roblox的读者，有必要了解一下这个平台的特殊性。Roblox不仅是一个游戏平台，更是一个大规模的用户生成内容（UGC）生态系统，拥有超过7000万日活跃用户。它使用自研的Luau编程语言（基于Lua的改进版本），开发者通过Roblox Studio创建3D游戏体验。这意味着AI在复刻Roblox游戏时，需要处理3D场景构建、物理引擎交互、多人网络同步等多层技术挑战——而非简单的2D网页游戏。此次测试中，创作者实际上是让AI生成基于Web技术（JavaScript/Three.js等）的复刻版本，这本身就是一次跨平台的技术翻译。

这三款被选中的游戏也各有代表性：Murder Mystery 2（2014年上线）是Roblox上最受欢迎的社交推理游戏之一，核心在于角色分配和紧张的追逐玩法；Natural Disaster Survival（2008年上线）是Roblox最早期的经典之一，以物理模拟驱动的灾害系统著称；MeepCity（2016年上线）则是Roblox历史上首个突破10亿访问量的游戏，以丰富的社交功能和虚拟生活模拟为卖点。三款游戏分别侧重视觉场景、物理系统和功能复杂度，恰好构成了一组全面的AI能力测试基准。

创作者为每个AI都准备了详细的提示词，并通过Gemini生成怀旧Roblox风格的主题提示词，同时喂入大量参考截图和Wiki资料作为辅助。整个过程耗时超过6小时，期间反复调整、修bug、补充图片参考，工作量相当大。

ChatGPT复刻Murder Mystery 2：视觉还原度最高

ChatGPT复刻Murder Mystery 2的成果展示

ChatGPT使用Codex模式进行开发。Codex是OpenAI专门为代码生成优化的AI代理环境，它能够在云端沙盒中实际运行代码、检查输出结果并自主迭代修正，而不仅仅是生成静态代码文本。这种"写代码-运行-检查-修改"的闭环能力，使得Codex在处理需要视觉反馈的游戏开发任务时具有天然优势——它可以"看到"自己生成的画面是否符合预期。创作者为其提供了大量Murder Mystery 2的原始截图，包括主菜单、大厅、工厂地图等场景。经过反复迭代修改，最终成果相当令人印象深刻。

亮点方面，主菜单的还原度非常高，视觉风格几乎与原版一致。大厅中的喷泉、投票室、暗门等经典元素都被成功复现。角色背上甚至背着各自的稀有武器，工厂地图的布局也与真实地图高度接近。游戏还实现了收音机功能、角色选择（凶手/警长/无辜者）等核心玩法。

不足之处也很明显：初始版本的镜头控制和角色移动完全是反的，需要大量手动修正。喷泉上的雕像还原不够理想，部分角色模型出现了"脑袋和身体分家"的滑稽bug。这类3D角色骨骼绑定（rigging）和变换矩阵的问题，是AI在处理空间几何关系时的常见短板——模型擅长理解代码逻辑，但对三维空间中的坐标系、旋转顺序和父子节点层级关系的直觉把握仍然不足。

Murder Mystery 2工厂地图场景

总体而言，ChatGPT在视觉还原和场景细节方面表现出色，UI准确度也很高，创作者给出了相当正面的评价。

Gemini复刻自然灾害生存：从翻车到逆袭

Gemini的复刻之路堪称跌宕起伏。创作者首先尝试了Gemini的Canvas功能，结果堪称灾难——角色移动异常、地震时直接掉穿地面、大量同类错误堆积如山。创作者甚至忍不住吐槽："这大概是我见过最烂的游戏了。"

Canvas是Google在Gemini中推出的交互式代码生成界面，设计初衷是让用户能够在对话中实时预览和编辑AI生成的代码。然而，Canvas模式在处理复杂的3D游戏项目时暴露出严重的局限性：它的上下文管理能力有限，难以在多轮对话中保持对整个项目架构的一致理解，导致修改一个bug往往会引入新的问题，形成恶性循环。

Gemini开发过程中的参考资料和Wiki策略

随后创作者切换到Gemini 2.5 Flash高性能模式，并采用了更聪明的策略：

引入一个现成的第三人称玩家控制JavaScript脚本
喂入大量怀旧截图和Wiki资料
反复调整到凌晨4点28分

Gemini 2.5 Flash是Google推出的高效推理模型，相比Canvas的轻量级交互模式，Flash系列在代码生成任务上拥有更大的上下文窗口（高达100万token）和更强的长程推理能力。"高性能模式"则进一步释放了模型的计算预算，允许它在生成代码前进行更深入的"思考"。这解释了为什么同一个品牌下，模式切换能带来如此巨大的质量差异。

逆袭后的效果令人惊喜。游戏一开场就出现在经典的2008年Roblox房子里，螺旋楼梯、绿色气球等标志性元素都被还原。多种灾害类型（洪水、地震、流星雨、海啸）都能正常运行，甚至还有可用的聊天功能。灯塔地图、双楼地图等经典场景也被成功复现。值得注意的是，灾害系统的实现需要处理物理模拟——水面上升的流体效果、地震时建筑物的结构破坏、流星的抛物线轨迹和碰撞检测——这些都是对AI物理引擎理解能力的直接考验。

创作者对那个"绝对经典的绿色气球"念念不忘，专门让AI在商店中加入了可购买的绿色气球功能——这个细节充分体现了怀旧的力量。

Claude复刻MeepCity：功能完整度最强

Claude负责的MeepCity可能是三款游戏中功能最复杂的一个，但它的表现却最让人刮目相看。

Claude开发MeepCity的过程

创作者使用Claude的Code模式进行开发。Claude Code是Anthropic推出的终端级AI编程代理，与ChatGPT Codex的云端沙盒不同，它直接在用户的本地开发环境中运行，能够读取整个项目的文件结构、理解文件间的依赖关系，并直接对源代码进行修改。这种"全项目感知"的能力使得Claude在处理MeepCity这样涉及多个互相关联子系统的复杂项目时具有结构性优势——它可以一次性投入大量文件和图片参考，在全局视角下协调各个模块的开发。

Claude成功还原了MeepCity中令人印象深刻的功能广度：

主广场与商业区：宠物店、家具店、家装用品店一应俱全
公共设施：学校（ABC、1+1=2的教学内容）、医院（可以躺床休息）
钓鱼系统：完整的抛竿、等待、上钩流程
宠物系统：可以购买跟随玩家的小Mip宠物（红绿蓝RGB三色可选）
派对房间：中间有迪斯科球，还有DJ Mip
房屋装饰系统：社区中有箭头指向玩家房屋，可打开装饰菜单
NPC互动与聊天：其他玩家在地图中走动并互相聊天

从技术角度看，MeepCity的复刻难度在于它本质上是一个小型虚拟世界模拟器，涉及状态管理（玩家背包、货币、宠物归属）、AI行为树（NPC的巡逻和对话逻辑）、UI系统（商店界面、装饰菜单）和场景管理（多个可切换的功能区域）等多个软件工程子领域。Claude能够在单次项目中协调这些系统的开发，展现了其在复杂架构设计方面的突出能力。

当然也有一些有趣的bug：店主卡在桌子里面且比例失调、学校椅子全部放反、房屋装饰后反而变得更乱。但整体的视觉风格还原相当到位，配上宁静的背景音乐，怀旧感拉满。

三款AI游戏开发能力综合对比

维度	ChatGPT (Codex)	Gemini (2.5 Flash)	Claude (Code)
复刻游戏	Murder Mystery 2	自然灾害生存	MeepCity
视觉还原	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐
功能完整度	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
初始质量	中等（需大量修正）	极差→逆袭	较好
调试难度	中等	高	中等

从测试结果来看，ChatGPT在视觉还原方面最为出色，主菜单和场景细节几乎以假乱真；Gemini经历了最大的起伏，Canvas模式几乎不可用，但切换到2.5 Flash后实现了质的飞跃；Claude在功能完整度上最为突出，能够处理复杂的多系统交互游戏。

需要指出的是，这次横评存在一个方法论上的局限：三款AI分别复刻的是不同游戏，而不同游戏的复刻难度本身就不对等。Murder Mystery 2侧重视觉场景，恰好发挥了ChatGPT Codex的视觉反馈优势；MeepCity侧重功能系统，恰好匹配了Claude Code的全项目管理能力。因此，这次测试更适合被视为"各AI在其擅长领域的表现展示"，而非严格的控制变量实验。

AI游戏开发的现状与实用技巧

这次测试揭示了几个重要发现：

提示词工程至关重要。 创作者不是简单地说"帮我做个游戏"，而是准备了详细的主题提示词、大量参考截图、Wiki资料，甚至现成的控制脚本。这种精心"喂料"的策略直接决定了输出质量。

从技术层面理解，这涉及到当前大语言模型的一个核心机制：上下文学习（In-Context Learning）。当你向AI提供参考截图时，多模态模型会将图像编码为视觉token，与文本指令共同构成输入上下文。参考图片越丰富、越具体，模型就越能准确理解目标风格和布局。而Wiki资料则提供了结构化的游戏机制描述，帮助模型建立清晰的功能需求图谱。现成的控制脚本更是直接降低了任务复杂度——与其让AI从零发明轮子，不如让它在已有基础上进行创造性组装。这种"分解复杂度、提供锚点"的提示策略，是当前AI辅助开发中最有效的实践方法之一。

模型选择和模式切换很关键。 Gemini Canvas的惨败和2.5 Flash的逆袭说明，同一品牌下不同模式的能力差异可能是天壤之别。选对工具比盲目使用更重要。

迭代修正不可避免。 即使是表现最好的AI，初始输出也需要大量人工介入调整。创作者花了超过6小时反复修改，这说明AI目前还远不能"一键生成"完整游戏，但作为辅助开发工具已经展现出惊人潜力。

这一发现与当前游戏行业的AI采纳趋势高度一致。根据2024-2025年的行业调查，已有超过50%的游戏开发工作室在某些环节引入了AI工具，但几乎没有工作室实现全流程AI自动化。AI在游戏开发中的角色正在从"概念验证的玩具"转变为"加速原型开发的生产力工具"。传统上，一个独立开发者制作类似MeepCity复杂度的原型可能需要数周时间，而借助AI辅助，这个周期被压缩到了6小时——即便产出仍需打磨，这种效率提升已经具有实质性的商业价值。

五个月前同样的测试，这些AI的表现远不如今天。按照这个进步速度，AI辅助游戏开发的未来值得期待。特别是随着模型上下文窗口的持续扩大（从32K到128K再到100万token）、多模态理解能力的增强、以及代理式编程（Agentic Coding）范式的成熟，AI从"写代码片段"到"管理完整项目"的能力跃迁正在加速发生。