Vibe Coding实战对比:三种策略开发英语学习游戏效果差异巨大

引言:一个英语学习游戏的Vibe Coding挑战
最近B站UP主六一(人工智能博士生兼独立开发者)发布了一期极具参考价值的Vibe Coding实战教程。他以开发一个「英语学习视觉小说游戏」为目标,通过三组对照实验,清晰展示了不同Vibe Coding策略对最终产出质量的巨大影响。
这期视频的核心观点非常明确:Vibe Coding不是"一句话点石成金",而是一套有章法的工程方法论。 即便使用同一个AI模型(OpenAI Codex),不同的资源准备和工具选择,会导致截然不同的结果。
这里有必要解释两个关键概念。OpenAI Codex是OpenAI推出的面向软件工程任务的AI智能体(Agent),它基于codex-1模型,能够在云端沙盒环境中自主执行多步骤的编码任务——包括编写功能代码、修复Bug、运行测试等。与传统的代码补全工具不同,Codex更接近一个"虚拟开发者":你给它一个任务描述,它会自主规划执行步骤、读写文件、安装依赖、运行调试,最终交付可运行的代码。而"Vibe Coding"这个概念由AI领域知名人物Andrej Karpathy在2025年初提出,指的是一种以自然语言描述需求、让AI完成大部分编码工作的开发范式。开发者更多扮演"导演"而非"演员"的角色——你负责描述想要什么,AI负责实现。这期视频的价值在于,它用对照实验证明了Vibe Coding并非简单的"说一句话就出成品",而是需要系统性的准备和策略。
第一版:纯Prompt零准备,AI能做到什么程度?
第一组实验完全模拟"普通用户"的使用方式——只给AI一句简单的指令:
「给我做一个学英语的Game,黑发、圆框眼镜、漂亮的二次元女角色,做一个五分钟的demo。」

Codex花了8分40秒完成开发,消耗了18%的五小时Token限额。结果是一个纯HTML/CSS实现的网页交互页面,角色形象由AI随机生成。UP主坦言,虽然完成度对于这个级别的Prompt来说"已经特别好了",但本质上它只是一个网页交互页面,谈不上是真正的游戏。
说个细节,Codex吃到了UP主之前的开发记忆——生成的角色和交互方式与他此前做过的Gala Game非常相似。这揭示了一个重要现象:AI智能体会被使用者的习惯"训练",程序员和非程序员使用同一个工具,长期积累后会产生显著的差异化结果。
第二版:提供素材资源,为AI减轻认知负担
核心原则:让AI专注于组装而非创造
第二组实验的关键改变是:提前准备好所有素材资源,让AI专注于"组装"而非"创造"。

UP主做了以下准备工作:
- 角色立绘:用AI生图工具生成两张不同表情的角色图,并手动用GIMP处理透明背景(AI生成的图片经常给"假Alpha"而非真正的透明背景)
- 背景图片:同画风的场景背景
- BGM:从无版权音乐资源网站获取的背景音乐
- 大纲:用大模型提前生成的游戏内容大纲
关于角色立绘的处理,这里值得展开说明一个在AI辅助开发中非常常见但容易被忽视的技术细节。Alpha通道是图像中控制透明度的第四个通道(除红、绿、蓝三个颜色通道外),真正的透明背景意味着背景区域的Alpha值为0。然而,当前主流的AI图像生成模型(如Stable Diffusion、DALL-E、Midjourney等)在训练时主要使用JPEG格式的图片数据集,而JPEG格式本身不支持Alpha通道。因此,这些模型生成的图片通常会用纯白色或棋盘格图案来"模拟"透明背景的视觉效果,但实际上这些区域的Alpha值仍然是255(完全不透明)。在游戏开发中,如果直接使用这种"假Alpha"图片作为角色立绘叠加在背景上,白色区域会直接遮挡背景,严重破坏视觉效果。GIMP(GNU Image Manipulation Program)是一款免费开源的图像编辑软件,可以通过"按颜色选择"工具选中背景区域后删除,生成真正的透明PNG文件。
这背后的原理与人类认知完全一致:如果往Context Window里塞太多无关紧要的东西,模型的性能就会下降。 就像人如果脑子里一直想鸡毛蒜皮的事情,决策能力和智商都会降低。把不重要的素材准备工作提前完成,让AI把思考精度和思考长度留给真正重要的逻辑开发。
这里的技术原理值得深入理解。Context Window(上下文窗口)是大语言模型的核心概念之一,指模型在单次推理中能够"看到"和处理的文本总量上限,通常以Token数量衡量。Token是模型处理文本的最小单位,一个英文单词大约对应1-2个Token,一个中文字大约对应1-2个Token。当Context Window被大量低价值信息占据时,模型的"注意力"会被稀释——这在技术上与Transformer架构的注意力机制直接相关。注意力机制需要计算输入序列中每个Token与其他所有Token的关联权重,当无关信息过多时,关键信息获得的注意力权重会下降,导致模型在关键决策点上的表现变差。这就是为什么提前准备好素材如此重要:把图片、音乐、大纲等"已确定的内容"从AI的思考负担中剥离出来,让有限的Context Window和计算资源集中服务于核心的逻辑推理和代码生成。
结果:质量飞跃,Token成本几乎不变

使用完全相同的Prompt,只是把"生成新角色"改为"使用提供的资源",Codex的表现判若两人。开发时间从8分钟延长到13分钟——模型明显进入了"认真模式",不仅实现了三次选择题、即时纠错、笔记自动存档等功能,甚至主动开发了手机端适配。
Token消耗仅从18%增加到19%,只多花了1%,但产出质量提升了一个量级。 游戏有了动态交互效果、BGM、短语复习功能,完成度远超第一版。
第三版:引入Godot游戏引擎,避免重复造轮子
为什么选择Godot引擎?
第三组实验在第二版的基础上,只加了一句话:「使用Godot引擎」。

Godot是一款完全免费、开源(MIT许可证)的跨平台游戏引擎,支持2D和3D游戏开发,近年来在独立游戏开发者社区中迅速崛起,被视为Unity和Unreal Engine之外的重要替代选择。Godot使用自研的GDScript脚本语言(语法类似Python,学习曲线平缓),同时也支持C#和C++。它之所以特别适合AI辅助开发,有几个关键原因:第一,Godot采用"场景-节点"的树形架构,每个游戏元素都是一个节点,这种高度结构化的组织方式非常符合AI的推理模式;第二,GDScript语法简洁直观,AI生成的代码出错率更低;第三,作为开源项目,Godot的文档和社区代码大量存在于AI的训练数据中,模型对其API和最佳实践有较好的"记忆"。
UP主选择它的逻辑非常清晰:HTML太轻量,几乎做不了复杂的东西。每次用HTML开发游戏,AI都必须从一张白纸开始,先写一个"引擎",然后才能往里面填游戏内容。而Godot这种成型的游戏引擎,AI只需要直接往里面填内容,不需要再管底层架构。相比之下,用纯HTML/CSS/JavaScript开发游戏时,没有统一的架构约束,AI必须自行设计状态管理、渲染循环、碰撞检测等底层系统,这些"重复造轮子"的工作不仅消耗大量Token,还容易引入架构层面的缺陷。
UP主用了一个精妙的比喻:这就像小学考试,老师直接发卷子你做题就行了;但如果老师在黑板上抄题,你还得先把题抄下来才能写。
结果:最快、最省Token、质量最高
这一版的数据令人惊叹:
| 指标 | 第一版(纯Prompt) | 第二版(+素材) | 第三版(+素材+Godot) |
|---|---|---|---|
| 开发时间 | 8分40秒 | 13分钟 | 8分57秒 |
| Token消耗 | 18% | 19%(+1%) | 8%(最少) |
| 产出质量 | 网页交互页面 | 高完成度网页游戏 | 接近正式游戏质感 |
第三版Token消耗最少,很可能的原因是:用HTML写游戏时,AI每次都要从零搭建一个"引擎";而使用Godot时,引擎已经提供了完整的框架,AI只需要专注于游戏内容本身。
这组数据背后反映了Vibe Coding实践中一个越来越重要的维度——Token经济学。OpenAI Codex采用按Token计费或配额制的模式,用户在一定时间窗口内有固定的Token使用额度。在这个实验中,五小时的Token限额就是开发者的"预算"。第一版消耗18%,第二版消耗19%,而引入Godot引擎的第三版仅消耗8%——这意味着同样的预算下,第三种策略可以支撑更多轮的迭代和优化。随着AI编程工具的普及,Token成本正在成为软件开发的新型成本项。选择合适的框架和工具链,不仅影响代码质量,还直接影响开发的经济效率。
最终产出的游戏有完整的弹窗反馈、笔记系统、BGM开关控制,质感已经非常接近一个正式发布的独立游戏。
三条Vibe Coding核心原则总结
通过这三组对照实验,我们可以提炼出三条关键原则:
1. 需求必须真实
Vibe Coding的第一原则是你的需求必须是真实的。有真实需求才能做出有效的判断和迭代,而不是漫无目的地让AI"随便做做"。真实需求意味着你对最终产品有明确的质量标准和使用场景,这会反过来指导你在每一步做出更好的决策——选择什么素材、用什么框架、哪些功能优先实现。
2. 为AI减负,提前准备素材资源
不要让AI同时承担"创意设计"和"工程实现"两个任务。素材、大纲、参考图这些可以提前准备的东西,就应该提前准备好,让AI的Context Window和思考能力集中在核心逻辑上。这个原则的本质是认知负荷管理——无论对人还是对AI,同时处理过多异质任务都会导致每个任务的完成质量下降。
3. 善用成熟框架,不要重复造轮子
善用成熟的开源工具和框架。让AI在已有的轮子上做开发,而不是每次都从零开始搭建基础设施。这不仅节省Token,更重要的是提升了产出的结构化程度和可维护性。"不要重复造轮子"在AI时代获得了新的含义——每一次让AI从零构建基础设施,都是在消耗本可以用于核心功能开发的宝贵Token资源。
结语:Vibe Coding时代程序员的真正优势
UP主在视频中提到一个被很多人忽视的观点:程序员也是普通人,只是特长是写程序的普通人。 但正是这种特长,让他们能够以更高效的方式使用AI工具——不是因为他们会写代码,而是因为他们懂得如何拆解问题、准备资源、选择工具。
在Vibe Coding时代,真正的竞争力不在于你能不能写代码,而在于你能不能像工程师一样思考:把复杂问题拆解成AI能高效处理的模块,用最少的资源获得最好的结果。 这三组实验清晰地证明了这一点——同一个AI模型,同一个开发任务,仅仅因为准备策略和工具选择的不同,Token消耗可以从18%降到8%,而产出质量却从"网页交互页面"跃升到"接近正式游戏质感"。这就是工程思维在AI时代的价值所在。
相关推荐

EasyPhone AI:用语音教老人用手机,遇诈骗自动踩刹车
EasyPhone AI(爸妈别急)是一款面向中老年人的AI语音手机教练,通过大字界面、分步指导和容错机制降低操作门槛,遇到诈骗等高风险场景时主动拦截并生成家人求助卡,用AI弥合数字鸿沟的同时守住安全底线。

Image2+Codex生成可编辑Figma设计稿完整教程
详解如何用ChatGPT Image2生成高质量UI设计稿,再通过OpenAI Codex自动转化为可编辑的Figma矢量文件。三步打通AI创意到可用设计资产的完整工作流,附导入步骤与编辑能力验证。

豆包AI编程调试实测:联调隐形Bug高效排查方案
实测豆包AI编程助手排查联调隐形Bug的完整流程:参数大小写不一致、JSON结构错位等典型问题,只需粘贴原始日志和代码即可精准定位根因并获取修复方案,大幅提升前后端联调调试效率。