Claude Opus 4.8 实测：一小时能做出什么？

Opus 4.8 悄然上线

Claude Opus 4.8 在近日凌晨正式发布，官方宣称它在 Opus 4.7 的基础上具备更敏锐的判断力，对自身进展的诚实度更高。

关于 Claude Opus 系列的迭代逻辑：Anthropic 的 Claude 模型采用分级命名体系——Haiku（轻量快速）、Sonnet（均衡）、Opus（旗舰）。Opus 系列代表 Anthropic 当前最强的推理与创作能力，每次小版本迭代（如 4.7→4.8）通常针对特定维度进行调优，而非全面重构。Anthropic 在模型安全性和"诚实度"上投入大量研究，其 Constitutional AI 方法论要求模型在自我认知上保持准确——这也是为何 Opus 4.8 着重宣传"诚实度提升"，但实际测试中却出现错误报告自身身份的 Bug，形成了颇为讽刺的对比。

不过"诚实"这件事似乎有点矫枉过正——有人用 API 测试时问它是什么模型，它一会儿说自己是千问，一会儿又说自己是 DeepSeek，表现相当怪异。好在官方已在客户端中修复了这个 Bug。

目前 Opus 4.8 已全面上线，在客户端和 Claude Code 中均可直接使用，默认模型为 Opus 4.8 Hi。你可能没注意到，不建议使用 Max 模式，因为额度消耗极高——博主仅问了一句"你是什么模型"就消耗了 2% 的额度。

为什么 Max 模式如此"烧额度"：Claude 的 Max 模式本质上是调用更长上下文窗口和更高推理深度的配置，其 Token 消耗量可能是标准模式的数倍乃至数十倍。Claude Opus 系列的定价在主流 LLM 中属于较高档位（约 $15/百万输入 Token），复杂代码生成任务单次调用可能消耗数万乃至数十万 Token，这解释了为何博主仅一句对话就消耗 2% 月度额度。对于需要长时间连续开发的场景，Token 限额机制会强制中断工作流，这是当前 AI 编程工具在工程实践中的重要摩擦点之一。

经典马里奥游戏测试

首次尝试翻车，重试后效果尚可

博主的第一个测试是频道保留节目——让 AI 制作一个马里奥小游戏。首次尝试直接失败，画面一片空白。重试后效果有了明显改善：怪物和人物的像素画做得相当精致，放大后可以看到角色头上还有经典的"M"图标，甚至还加入了音效。

不过 Bug 依然存在：部分地形跳不过去，水管显示异常，跳跃时背景地图会跟着一起移动。博主反馈地图问题后，AI 又思考了十来分钟才给出最终成品。

马里奥游戏效果

整体来看，单文件小游戏的生成质量尚可，但仍需要人工反馈和多轮迭代才能达到基本可玩的状态。

卡牌游戏开发实战

Codex 规划 + Claude Code 开发的协作模式

第二个测试更有野心：制作一款类似《杀戮尖塔》风格的卡牌游戏。

《杀戮尖塔》与 Roguelike 卡牌的设计复杂度：《杀戮尖塔》（Slay the Spire）于 2019 年正式发布，开创了 Roguelike 与 Deck-Building（卡组构建）融合的游戏范式，此后成为独立游戏开发者和 AI 代码生成测试的热门参照对象。其核心机制包括：随机生成的路线分支、战斗-商店-事件的节点系统、卡牌升级与遗物组合的 Build 构建，以及 Roguelike 标志性的永久死亡机制。这套系统的复杂度远超马里奥横版跑酷，涉及状态管理、数值平衡、UI 交互和随机算法等多个工程维度，因此成为测试 AI 代码生成能力上限的理想场景。

由于 Claude 本身不能生图，博主先用 Codex 花了半小时生成数字资产（背景、地图、角色素材等），再交给 Claude Code 进行游戏开发。

Codex 与 Claude Code 的分工逻辑：OpenAI Codex 和 Anthropic Claude Code 代表了当前 AI 编程助手的两种不同产品形态。Codex 更侧重于任务规划、代码框架生成和多步骤工程拆解，具备较强的项目级视野；Claude Code 则以终端集成、文件操作和迭代修复见长，更适合在已有框架内执行具体编码任务。博主采用"Codex 规划素材 + Claude Code 编码实现"的分工，实际上是在模拟软件工程中"架构师 + 开发者"的协作模式，将两个模型的相对优势进行互补。这种多模型协作的工作流（Multi-Agent Workflow）正在成为 AI 辅助开发的新趋势，但模型间的上下文传递和任务衔接损耗，目前仍是主要瓶颈。

这个过程暴露了几个问题：

图片切割灾难：Claude 在处理素材图时把完整的图切成了两半，效果"稀碎"。最终不得不让 Codex 重新切图。
额度瓶颈：开发进行到 16 分钟时，5 小时限额就用完了，需要等到额度恢复才能继续。
总耗时超过一小时：前后操作了 34 分钟的编码时间，加上之前的 20 分钟和等待时间，整个流程超过一个小时。

素材切割问题

成品体验：有模有样但问题不少

游戏最终跑起来了，整体"味道还是很正的"——有角色选择、路线分支、战斗系统、事件触发、商店和营地等完整的 Roguelike 卡牌游戏要素。

卡牌游戏战斗界面

但实际体验中问题频出：

点击无响应 Bug：选择角色后点击"确认出征"毫无反应，Claude 自己测试时也遇到了同样的问题，甚至承认"我当时用控制台直接调用函数绕过去了"——这个回答颇为诚实但也令人哭笑不得
UI 显示问题：部分模板缺失，卡牌信息没有正确放入框内，底部切图仍有瑕疵
数值不平衡：博主在游戏中很快就因为血量不足而阵亡，精英怪 92 点血对比玩家 10 点血，平衡性几乎不存在

博主坦言，如果整个项目都交给 Codex 来完成，效果可能会更好，毕竟规划本身就是 Codex 做的。

代码之外：文案与创作能力

搜索与评价能力

博主也测试了非代码场景。让 Opus 4.8 搜索并点评一位博主时，搜索工具的内容偏向时事财经科技，部分信息被反爬机制挡住，导致评价不够准确。不过 AI 给出的"毒舌"风格点评倒是有几分味道。

小说创作测试

让 Opus 4.8 以博主本人为主角写一篇无限流小说，结果中规中矩。

无限流与 AI 创作能力的评估维度：无限流是起源于中文网络文学的一种类型，核心设定是主角穿越于不同影视、游戏或历史世界执行任务，融合了异世界穿越、副本闯关和系统流等元素。这一题材对 AI 创作能力的考验在于：世界观的一致性维护、跨场景的叙事连贯性，以及角色能力系统的自洽设计。博主评价 Opus 4.8 的创作"跟 4.6 差不多"，指向了当前大语言模型在创意写作上的一个普遍瓶颈——模型规模的提升对推理和代码能力的边际收益，往往高于对文学创意和风格独特性的提升。AI 创作能力的评估缺乏客观量化指标，主观感受差异大，这也是为何此类测试结论往往因人而异。

AI 设计了一个"随身大模型联网版"的能力——可以在脑内召唤 AI 助手回答任何问题，创意还算有趣。但博主评价"跟 Opus 4.6 差不多，没有什么提升"，也没有发现之前 ChatGPT 那种明显的"口癖"问题。

日常使用场景

总结：平平淡淡的迭代

博主对这次体验的总结相当直白："有点无聊"、"平平淡淡"。具体来说：

代码能力：能完成复杂项目但 Bug 频出，需要大量人工干预和多轮修复
额度消耗：Max 模式消耗过高，普通模式也容易触及限额，严重影响开发连续性
创作能力：相比 4.6/4.7 没有明显提升，表现中规中矩
协作模式：Codex 负责规划和素材、Claude Code 负责编码的分工模式有一定可行性，但衔接仍不够顺畅

正如博主自嘲的那样，这不是一个刻意展示好结果的测试视频，而是一个真实的"当下体验"记录。Opus 4.8 的升级更像是一次小幅调优，而非令人兴奋的跨越式进步。对于期待 AI 编程能力质变的用户来说，可能还需要继续等待。

核心要点

Claude Opus 4.8 正式上线，Max模式额度消耗极高，问一句话就消耗2%额度
马里奥游戏测试需多轮迭代才能基本可玩，卡牌游戏开发耗时超一小时且Bug频出
Codex规划+Claude Code编码的协作模式有一定可行性，但素材处理和代码质量仍需人工干预
文案创作和小说写作能力相比Opus 4.6无明显提升，整体迭代幅度有限
实际体验平淡，属于小幅调优而非跨越式进步