Claude Opus 4.8 实测:一小时能做出什么?

Claude Opus 4.8悄然上线,实测代码和创作能力提升有限,属小幅调优。
Claude Opus 4.8正式发布,宣称提升判断力和诚实度,但实测表现平淡。代码方面,马里奥游戏需多轮迭代才可玩,卡牌游戏开发耗时超一小时且Bug频出;创作能力与4.6相当无明显进步。Max模式额度消耗极高,严重影响开发连续性。Codex规划+Claude Code编码的协作模式有潜力但衔接不畅,整体属于小幅调优而非质变。
Opus 4.8 悄然上线
Claude Opus 4.8 在近日凌晨正式发布,官方宣称它在 Opus 4.7 的基础上具备更敏锐的判断力,对自身进展的诚实度更高。
关于 Claude Opus 系列的迭代逻辑:Anthropic 的 Claude 模型采用分级命名体系——Haiku(轻量快速)、Sonnet(均衡)、Opus(旗舰)。Opus 系列代表 Anthropic 当前最强的推理与创作能力,每次小版本迭代(如 4.7→4.8)通常针对特定维度进行调优,而非全面重构。Anthropic 在模型安全性和"诚实度"上投入大量研究,其 Constitutional AI 方法论要求模型在自我认知上保持准确——这也是为何 Opus 4.8 着重宣传"诚实度提升",但实际测试中却出现错误报告自身身份的 Bug,形成了颇为讽刺的对比。
不过"诚实"这件事似乎有点矫枉过正——有人用 API 测试时问它是什么模型,它一会儿说自己是千问,一会儿又说自己是 DeepSeek,表现相当怪异。好在官方已在客户端中修复了这个 Bug。
目前 Opus 4.8 已全面上线,在客户端和 Claude Code 中均可直接使用,默认模型为 Opus 4.8 Hi。你可能没注意到,不建议使用 Max 模式,因为额度消耗极高——博主仅问了一句"你是什么模型"就消耗了 2% 的额度。
为什么 Max 模式如此"烧额度":Claude 的 Max 模式本质上是调用更长上下文窗口和更高推理深度的配置,其 Token 消耗量可能是标准模式的数倍乃至数十倍。Claude Opus 系列的定价在主流 LLM 中属于较高档位(约 $15/百万输入 Token),复杂代码生成任务单次调用可能消耗数万乃至数十万 Token,这解释了为何博主仅一句对话就消耗 2% 月度额度。对于需要长时间连续开发的场景,Token 限额机制会强制中断工作流,这是当前 AI 编程工具在工程实践中的重要摩擦点之一。
经典马里奥游戏测试
首次尝试翻车,重试后效果尚可
博主的第一个测试是频道保留节目——让 AI 制作一个马里奥小游戏。首次尝试直接失败,画面一片空白。重试后效果有了明显改善:怪物和人物的像素画做得相当精致,放大后可以看到角色头上还有经典的"M"图标,甚至还加入了音效。
不过 Bug 依然存在:部分地形跳不过去,水管显示异常,跳跃时背景地图会跟着一起移动。博主反馈地图问题后,AI 又思考了十来分钟才给出最终成品。

整体来看,单文件小游戏的生成质量尚可,但仍需要人工反馈和多轮迭代才能达到基本可玩的状态。
卡牌游戏开发实战
Codex 规划 + Claude Code 开发的协作模式
第二个测试更有野心:制作一款类似《杀戮尖塔》风格的卡牌游戏。
《杀戮尖塔》与 Roguelike 卡牌的设计复杂度:《杀戮尖塔》(Slay the Spire)于 2019 年正式发布,开创了 Roguelike 与 Deck-Building(卡组构建)融合的游戏范式,此后成为独立游戏开发者和 AI 代码生成测试的热门参照对象。其核心机制包括:随机生成的路线分支、战斗-商店-事件的节点系统、卡牌升级与遗物组合的 Build 构建,以及 Roguelike 标志性的永久死亡机制。这套系统的复杂度远超马里奥横版跑酷,涉及状态管理、数值平衡、UI 交互和随机算法等多个工程维度,因此成为测试 AI 代码生成能力上限的理想场景。
由于 Claude 本身不能生图,博主先用 Codex 花了半小时生成数字资产(背景、地图、角色素材等),再交给 Claude Code 进行游戏开发。
Codex 与 Claude Code 的分工逻辑:OpenAI Codex 和 Anthropic Claude Code 代表了当前 AI 编程助手的两种不同产品形态。Codex 更侧重于任务规划、代码框架生成和多步骤工程拆解,具备较强的项目级视野;Claude Code 则以终端集成、文件操作和迭代修复见长,更适合在已有框架内执行具体编码任务。博主采用"Codex 规划素材 + Claude Code 编码实现"的分工,实际上是在模拟软件工程中"架构师 + 开发者"的协作模式,将两个模型的相对优势进行互补。这种多模型协作的工作流(Multi-Agent Workflow)正在成为 AI 辅助开发的新趋势,但模型间的上下文传递和任务衔接损耗,目前仍是主要瓶颈。
这个过程暴露了几个问题:
- 图片切割灾难:Claude 在处理素材图时把完整的图切成了两半,效果"稀碎"。最终不得不让 Codex 重新切图。
- 额度瓶颈:开发进行到 16 分钟时,5 小时限额就用完了,需要等到额度恢复才能继续。
- 总耗时超过一小时:前后操作了 34 分钟的编码时间,加上之前的 20 分钟和等待时间,整个流程超过一个小时。

成品体验:有模有样但问题不少
游戏最终跑起来了,整体"味道还是很正的"——有角色选择、路线分支、战斗系统、事件触发、商店和营地等完整的 Roguelike 卡牌游戏要素。

但实际体验中问题频出:
- 点击无响应 Bug:选择角色后点击"确认出征"毫无反应,Claude 自己测试时也遇到了同样的问题,甚至承认"我当时用控制台直接调用函数绕过去了"——这个回答颇为诚实但也令人哭笑不得
- UI 显示问题:部分模板缺失,卡牌信息没有正确放入框内,底部切图仍有瑕疵
- 数值不平衡:博主在游戏中很快就因为血量不足而阵亡,精英怪 92 点血对比玩家 10 点血,平衡性几乎不存在
博主坦言,如果整个项目都交给 Codex 来完成,效果可能会更好,毕竟规划本身就是 Codex 做的。
代码之外:文案与创作能力
搜索与评价能力
博主也测试了非代码场景。让 Opus 4.8 搜索并点评一位博主时,搜索工具的内容偏向时事财经科技,部分信息被反爬机制挡住,导致评价不够准确。不过 AI 给出的"毒舌"风格点评倒是有几分味道。
小说创作测试
让 Opus 4.8 以博主本人为主角写一篇无限流小说,结果中规中矩。
无限流与 AI 创作能力的评估维度:无限流是起源于中文网络文学的一种类型,核心设定是主角穿越于不同影视、游戏或历史世界执行任务,融合了异世界穿越、副本闯关和系统流等元素。这一题材对 AI 创作能力的考验在于:世界观的一致性维护、跨场景的叙事连贯性,以及角色能力系统的自洽设计。博主评价 Opus 4.8 的创作"跟 4.6 差不多",指向了当前大语言模型在创意写作上的一个普遍瓶颈——模型规模的提升对推理和代码能力的边际收益,往往高于对文学创意和风格独特性的提升。AI 创作能力的评估缺乏客观量化指标,主观感受差异大,这也是为何此类测试结论往往因人而异。
AI 设计了一个"随身大模型联网版"的能力——可以在脑内召唤 AI 助手回答任何问题,创意还算有趣。但博主评价"跟 Opus 4.6 差不多,没有什么提升",也没有发现之前 ChatGPT 那种明显的"口癖"问题。

总结:平平淡淡的迭代
博主对这次体验的总结相当直白:"有点无聊"、"平平淡淡"。具体来说:
- 代码能力:能完成复杂项目但 Bug 频出,需要大量人工干预和多轮修复
- 额度消耗:Max 模式消耗过高,普通模式也容易触及限额,严重影响开发连续性
- 创作能力:相比 4.6/4.7 没有明显提升,表现中规中矩
- 协作模式:Codex 负责规划和素材、Claude Code 负责编码的分工模式有一定可行性,但衔接仍不够顺畅
正如博主自嘲的那样,这不是一个刻意展示好结果的测试视频,而是一个真实的"当下体验"记录。Opus 4.8 的升级更像是一次小幅调优,而非令人兴奋的跨越式进步。对于期待 AI 编程能力质变的用户来说,可能还需要继续等待。
核心要点
- Claude Opus 4.8 正式上线,Max模式额度消耗极高,问一句话就消耗2%额度
- 马里奥游戏测试需多轮迭代才能基本可玩,卡牌游戏开发耗时超一小时且Bug频出
- Codex规划+Claude Code编码的协作模式有一定可行性,但素材处理和代码质量仍需人工干预
- 文案创作和小说写作能力相比Opus 4.6无明显提升,整体迭代幅度有限
- 实际体验平淡,属于小幅调优而非跨越式进步
相关推荐
产品体验Qoder vs Cursor实测对比:同样20美金谁更强?
实测对比Qoder和Cursor两款AI IDE,从Agent自主修复能力、人工沟通次数、架构决策等维度评测。Qoder仅需2次沟通完成任务,Cursor需8次。详细分析两者差异,帮你选择最适合的AI编程工具。
产品体验Cursor云Agent演示:打通软件开发全链路瓶颈
深度解析Cursor云Agent最新Demo,展示如何通过云端虚拟机、自动测试产物和全链路控制平面,系统性消除软件开发生命周期中的人类瓶颈,让Agent自主运行、人按需介入。
产品体验Cursor 3.0深度解析:多Agent并行、Design Mode与Best-of-N模型对比
Cursor 3.0正式发布,从AI辅助编程工具进化为Agent舰队指挥中心。本文详解多智能体并行、Design Mode可视化编辑、Best-of-N多模型择优等核心功能,解读AI编程新范式。