ChatGPT vs Gemini vs Claude:三大AI从零复刻经典Roblox游戏实测对比

当ChatGPT、Gemini和Claude分别接到任务——从零开始复刻经典Roblox老游戏,结果会怎样?一位创作者用实际测试给出了答案。这不仅是一次怀旧之旅,更是对当前主流AI编程能力的一次硬核横评。
测试规则:三款AI各领一款经典Roblox游戏
这次测试的规则很明确:三款AI模型各自负责复刻一款经典Roblox游戏,不做简单的文字生成,而是要求它们真正写出可运行的游戏代码。具体分工如下:
- ChatGPT(Codex):复刻 Murder Mystery 2
- Gemini(Canvas / 2.5 Flash):复刻 Natural Disaster Survival(自然灾害生存)
- Claude(Code模式):复刻 MeepCity
对于不熟悉Roblox的读者,有必要了解一下这个平台的特殊性。Roblox不仅是一个游戏平台,更是一个大规模的用户生成内容(UGC)生态系统,拥有超过7000万日活跃用户。它使用自研的Luau编程语言(基于Lua的改进版本),开发者通过Roblox Studio创建3D游戏体验。这意味着AI在复刻Roblox游戏时,需要处理3D场景构建、物理引擎交互、多人网络同步等多层技术挑战——而非简单的2D网页游戏。此次测试中,创作者实际上是让AI生成基于Web技术(JavaScript/Three.js等)的复刻版本,这本身就是一次跨平台的技术翻译。
这三款被选中的游戏也各有代表性:Murder Mystery 2(2014年上线)是Roblox上最受欢迎的社交推理游戏之一,核心在于角色分配和紧张的追逐玩法;Natural Disaster Survival(2008年上线)是Roblox最早期的经典之一,以物理模拟驱动的灾害系统著称;MeepCity(2016年上线)则是Roblox历史上首个突破10亿访问量的游戏,以丰富的社交功能和虚拟生活模拟为卖点。三款游戏分别侧重视觉场景、物理系统和功能复杂度,恰好构成了一组全面的AI能力测试基准。
创作者为每个AI都准备了详细的提示词,并通过Gemini生成怀旧Roblox风格的主题提示词,同时喂入大量参考截图和Wiki资料作为辅助。整个过程耗时超过6小时,期间反复调整、修bug、补充图片参考,工作量相当大。
ChatGPT复刻Murder Mystery 2:视觉还原度最高

ChatGPT使用Codex模式进行开发。Codex是OpenAI专门为代码生成优化的AI代理环境,它能够在云端沙盒中实际运行代码、检查输出结果并自主迭代修正,而不仅仅是生成静态代码文本。这种"写代码-运行-检查-修改"的闭环能力,使得Codex在处理需要视觉反馈的游戏开发任务时具有天然优势——它可以"看到"自己生成的画面是否符合预期。创作者为其提供了大量Murder Mystery 2的原始截图,包括主菜单、大厅、工厂地图等场景。经过反复迭代修改,最终成果相当令人印象深刻。
亮点方面,主菜单的还原度非常高,视觉风格几乎与原版一致。大厅中的喷泉、投票室、暗门等经典元素都被成功复现。角色背上甚至背着各自的稀有武器,工厂地图的布局也与真实地图高度接近。游戏还实现了收音机功能、角色选择(凶手/警长/无辜者)等核心玩法。
不足之处也很明显:初始版本的镜头控制和角色移动完全是反的,需要大量手动修正。喷泉上的雕像还原不够理想,部分角色模型出现了"脑袋和身体分家"的滑稽bug。这类3D角色骨骼绑定(rigging)和变换矩阵的问题,是AI在处理空间几何关系时的常见短板——模型擅长理解代码逻辑,但对三维空间中的坐标系、旋转顺序和父子节点层级关系的直觉把握仍然不足。

总体而言,ChatGPT在视觉还原和场景细节方面表现出色,UI准确度也很高,创作者给出了相当正面的评价。
Gemini复刻自然灾害生存:从翻车到逆袭
Gemini的复刻之路堪称跌宕起伏。创作者首先尝试了Gemini的Canvas功能,结果堪称灾难——角色移动异常、地震时直接掉穿地面、大量同类错误堆积如山。创作者甚至忍不住吐槽:"这大概是我见过最烂的游戏了。"
Canvas是Google在Gemini中推出的交互式代码生成界面,设计初衷是让用户能够在对话中实时预览和编辑AI生成的代码。然而,Canvas模式在处理复杂的3D游戏项目时暴露出严重的局限性:它的上下文管理能力有限,难以在多轮对话中保持对整个项目架构的一致理解,导致修改一个bug往往会引入新的问题,形成恶性循环。

随后创作者切换到Gemini 2.5 Flash高性能模式,并采用了更聪明的策略:
- 引入一个现成的第三人称玩家控制JavaScript脚本
- 喂入大量怀旧截图和Wiki资料
- 反复调整到凌晨4点28分
Gemini 2.5 Flash是Google推出的高效推理模型,相比Canvas的轻量级交互模式,Flash系列在代码生成任务上拥有更大的上下文窗口(高达100万token)和更强的长程推理能力。"高性能模式"则进一步释放了模型的计算预算,允许它在生成代码前进行更深入的"思考"。这解释了为什么同一个品牌下,模式切换能带来如此巨大的质量差异。
逆袭后的效果令人惊喜。游戏一开场就出现在经典的2008年Roblox房子里,螺旋楼梯、绿色气球等标志性元素都被还原。多种灾害类型(洪水、地震、流星雨、海啸)都能正常运行,甚至还有可用的聊天功能。灯塔地图、双楼地图等经典场景也被成功复现。值得注意的是,灾害系统的实现需要处理物理模拟——水面上升的流体效果、地震时建筑物的结构破坏、流星的抛物线轨迹和碰撞检测——这些都是对AI物理引擎理解能力的直接考验。
创作者对那个"绝对经典的绿色气球"念念不忘,专门让AI在商店中加入了可购买的绿色气球功能——这个细节充分体现了怀旧的力量。
Claude复刻MeepCity:功能完整度最强
Claude负责的MeepCity可能是三款游戏中功能最复杂的一个,但它的表现却最让人刮目相看。

创作者使用Claude的Code模式进行开发。Claude Code是Anthropic推出的终端级AI编程代理,与ChatGPT Codex的云端沙盒不同,它直接在用户的本地开发环境中运行,能够读取整个项目的文件结构、理解文件间的依赖关系,并直接对源代码进行修改。这种"全项目感知"的能力使得Claude在处理MeepCity这样涉及多个互相关联子系统的复杂项目时具有结构性优势——它可以一次性投入大量文件和图片参考,在全局视角下协调各个模块的开发。
Claude成功还原了MeepCity中令人印象深刻的功能广度:
- 主广场与商业区:宠物店、家具店、家装用品店一应俱全
- 公共设施:学校(ABC、1+1=2的教学内容)、医院(可以躺床休息)
- 钓鱼系统:完整的抛竿、等待、上钩流程
- 宠物系统:可以购买跟随玩家的小Mip宠物(红绿蓝RGB三色可选)
- 派对房间:中间有迪斯科球,还有DJ Mip
- 房屋装饰系统:社区中有箭头指向玩家房屋,可打开装饰菜单
- NPC互动与聊天:其他玩家在地图中走动并互相聊天
从技术角度看,MeepCity的复刻难度在于它本质上是一个小型虚拟世界模拟器,涉及状态管理(玩家背包、货币、宠物归属)、AI行为树(NPC的巡逻和对话逻辑)、UI系统(商店界面、装饰菜单)和场景管理(多个可切换的功能区域)等多个软件工程子领域。Claude能够在单次项目中协调这些系统的开发,展现了其在复杂架构设计方面的突出能力。
当然也有一些有趣的bug:店主卡在桌子里面且比例失调、学校椅子全部放反、房屋装饰后反而变得更乱。但整体的视觉风格还原相当到位,配上宁静的背景音乐,怀旧感拉满。
三款AI游戏开发能力综合对比
| 维度 | ChatGPT (Codex) | Gemini (2.5 Flash) | Claude (Code) |
|---|---|---|---|
| 复刻游戏 | Murder Mystery 2 | 自然灾害生存 | MeepCity |
| 视觉还原 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 功能完整度 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 初始质量 | 中等(需大量修正) | 极差→逆袭 | 较好 |
| 调试难度 | 中等 | 高 | 中等 |
从测试结果来看,ChatGPT在视觉还原方面最为出色,主菜单和场景细节几乎以假乱真;Gemini经历了最大的起伏,Canvas模式几乎不可用,但切换到2.5 Flash后实现了质的飞跃;Claude在功能完整度上最为突出,能够处理复杂的多系统交互游戏。
需要指出的是,这次横评存在一个方法论上的局限:三款AI分别复刻的是不同游戏,而不同游戏的复刻难度本身就不对等。Murder Mystery 2侧重视觉场景,恰好发挥了ChatGPT Codex的视觉反馈优势;MeepCity侧重功能系统,恰好匹配了Claude Code的全项目管理能力。因此,这次测试更适合被视为"各AI在其擅长领域的表现展示",而非严格的控制变量实验。
AI游戏开发的现状与实用技巧
这次测试揭示了几个重要发现:
提示词工程至关重要。 创作者不是简单地说"帮我做个游戏",而是准备了详细的主题提示词、大量参考截图、Wiki资料,甚至现成的控制脚本。这种精心"喂料"的策略直接决定了输出质量。
从技术层面理解,这涉及到当前大语言模型的一个核心机制:上下文学习(In-Context Learning)。当你向AI提供参考截图时,多模态模型会将图像编码为视觉token,与文本指令共同构成输入上下文。参考图片越丰富、越具体,模型就越能准确理解目标风格和布局。而Wiki资料则提供了结构化的游戏机制描述,帮助模型建立清晰的功能需求图谱。现成的控制脚本更是直接降低了任务复杂度——与其让AI从零发明轮子,不如让它在已有基础上进行创造性组装。这种"分解复杂度、提供锚点"的提示策略,是当前AI辅助开发中最有效的实践方法之一。
模型选择和模式切换很关键。 Gemini Canvas的惨败和2.5 Flash的逆袭说明,同一品牌下不同模式的能力差异可能是天壤之别。选对工具比盲目使用更重要。
迭代修正不可避免。 即使是表现最好的AI,初始输出也需要大量人工介入调整。创作者花了超过6小时反复修改,这说明AI目前还远不能"一键生成"完整游戏,但作为辅助开发工具已经展现出惊人潜力。
这一发现与当前游戏行业的AI采纳趋势高度一致。根据2024-2025年的行业调查,已有超过50%的游戏开发工作室在某些环节引入了AI工具,但几乎没有工作室实现全流程AI自动化。AI在游戏开发中的角色正在从"概念验证的玩具"转变为"加速原型开发的生产力工具"。传统上,一个独立开发者制作类似MeepCity复杂度的原型可能需要数周时间,而借助AI辅助,这个周期被压缩到了6小时——即便产出仍需打磨,这种效率提升已经具有实质性的商业价值。
五个月前同样的测试,这些AI的表现远不如今天。按照这个进步速度,AI辅助游戏开发的未来值得期待。特别是随着模型上下文窗口的持续扩大(从32K到128K再到100万token)、多模态理解能力的增强、以及代理式编程(Agentic Coding)范式的成熟,AI从"写代码片段"到"管理完整项目"的能力跃迁正在加速发生。
核心要点
相关推荐

AI经济学的荒诞寓言:资本泡沫是如何被吹大的
一则精妙的AI经济讽刺寓言,揭示AI投资狂潮中的荒诞资本循环逻辑:投资变收入、估值靠魔术、媒体成共谋。拆解AI行业泡沫背后的真实隐忧。

Trae SOLO氛围编程12个实用技巧:从入门到高效协作
详解Trae SOLO氛围编程的12个实战技巧,涵盖智能体选择、Plan模式、上下文管理、自定义规则等核心用法,帮你建立高效的AI编程协作流程。

Trae+WPS实现JSA零代码登录授权系统实战教程
详解如何用Trae AI编程工具配合WPS多维表,零手写代码构建JSA登录授权系统。涵盖在线表创建、Web API鉴权脚本、本地窗体设计及远程用户权限管理全流程。