Claude Oceanus到GPT-5.6：本周AI模型重磅更新全解析

本周AI领域迎来了密集的模型更新和泄露信息，从Anthropic的神秘新模型Oceanus，到OpenAI的GPT 5.6 Checkpoint，再到英伟达的5500亿参数巨兽Nemotron Ultra，各大厂商的竞争进入白热化阶段。本文梳理本周最重要的AI模型动态，帮你快速掌握行业脉搏。

Anthropic Oceanus：Mythos的继任者即将登场

据报道，Anthropic正在内部对一个代号为"Oceanus"的新模型进行红队测试。红队测试（Red Teaming）是AI安全领域的核心实践，源自军事演习中的对抗性测试概念——专业测试人员系统性地探测模型的漏洞、偏见和潜在危害输出。Anthropic的红队测试通常分为内部和外部两个阶段，外部阶段邀请独立研究者和专业机构参与，其启动通常意味着模型已通过内部安全审查，距离公开发布仅剩最后的验证环节。

这个模型被认为是当前Mythos Preview的继任者，而熟悉项目的消息人士透露，Anthropic通常会在公开发布前约一周启动外部红队测试——这意味着正式发布可能比预期更快。

然而事情出现了波折。据称红队测试项目已被暂停，原因是有人可能通过中国的API代理转售模型访问权限。如果属实，这也解释了Anthropic为何会迅速关停测试阶段。不过这些说法目前尚未得到官方确认。

Oceanus定价信息泄露

泄露信息显示，Oceanus/Mythos的定价为：输入每100万Token 16美元，输出每100万Token 80美元。Token是大语言模型处理文本的基本单位，英文中大约每个单词对应1-1.5个Token，中文则每个字约1.5-2个Token。模型API的定价通常按输入和输出Token分别计费，输出价格高于输入是因为生成文本需要更多计算资源。

这个价格相当高昂——对比Claude Sonnet 4（输入3美元/输出15美元）高出约5倍，反映了其作为旗舰级推理模型的定位。但考虑到其能力表现，对于企业级应用来说可能仍具吸引力。

Mythos Preview的惊人代码生成能力

目前已泄露的Mythos Preview输出展示了极其强大的能力。其中最惊艳的案例之一是一个完全由模型生成的奇幻世界场景——据说在Zero-Shot条件下，仅用低强度推理就完成了。Zero-Shot是指模型在没有任何示例参考的情况下，仅凭指令描述就完成任务的能力，这与Few-Shot（提供少量示例）形成对比，Zero-Shot能力越强，说明模型的泛化理解能力越高。

整个项目使用Three.js和HTML。Three.js是基于WebGL的JavaScript 3D图形库，广泛用于浏览器端的3D可视化和游戏开发。模型自行编写了自定义网格生成引擎，这意味着它不仅理解Three.js的API，还具备从零设计复杂3D渲染管线的架构能力——这在一年前的模型中几乎不可能实现。最终输出包含城堡、村庄、河流、森林和农田，还有完整的昼夜切换控制功能。

另一个令人印象深刻的案例是macOS克隆：Claude Opus用单个提示词生成了完整的macOS克隆版，包括所有应用的SVG图标。输出约5万个Token，代码超过3000行，甚至包含Google Maps克隆、音乐播放器、消息应用、照片应用等功能模块。

Anthropic重磅论文：AI递归式自我改进

Anthropic发布了一篇可能成为今年最重要的AI研究论文之一的成果。递归式自我改进（Recursive Self-Improvement）是AI安全研究中的关键概念，指AI系统能够改进自身的代码、训练流程或架构，从而产生更强大的下一代版本，形成正反馈循环。这个概念与"智能爆炸"假说密切相关——一旦AI能有效改进自身，改进速度可能呈指数级增长。

核心发现包括：

Claude已将Anthropic内部AI开发推进到新阶段，正在形成通往AI递归式自我改进的潜在路径
Claude Mythos Preview可在复杂任务上自主工作至少16小时，正在把METR等评估系统的衡量范围推到极限。METR（Model Evaluation and Threat Research）是一个独立的AI安全评估组织，专门设计长时间、多步骤的复杂任务来测试AI模型的自主能力边界，其评估任务通常需要模型进行数小时的持续工作。当模型开始突破这些评估的上限时，意味着现有框架可能已无法充分区分顶尖模型的能力差异
工程师每季度交付代码量约为过去的8倍，约80%已合并代码由Claude编写
Mythos将Claude Code在开放式工程任务上的成功率从40%提升到接近70%

Anthropic最大胆的判断是：AI生成代码的质量已开始接近人类水平，并认为一年内会全面超过人类。论文中提到的"80%代码由Claude编写"和"工程师产出提升8倍"，暗示AI已在实质性地加速AI开发本身——虽然目前仍需人类监督和决策，但自主程度正在快速提升。如果这个趋势持续，我们可能正在见证AI系统主动加速自身开发的早期阶段。

OpenAI GPT-5.6 Checkpoint：Dual Alpha浮出水面

有人在一位YouTuber的Codex应用演示视频中发现了一个新的GPT 5.6 Checkpoint，代号"Dual Alpha"。在大模型训练过程中，Checkpoint是指训练到某个阶段时保存的模型快照，GPT-5.6 Checkpoint意味着这可能是GPT-5系列训练过程中的一个中间版本，而非最终发布版本。大模型的训练通常持续数周到数月，期间会产生多个Checkpoint用于评估和调试。"Dual Alpha"这样的代号通常用于内部追踪不同的训练配置或数据混合策略。虽然画面很快被下架，但截图已经流出。

GPT-5.6关键亮点

早期输出在SVG生成和前端开发任务上表现惊艳。特别有意思的是，很多示例是用Base Model生成的，并未开启Reasoning功能。Base Model指未经RLHF（人类反馈强化学习）对齐的原始预训练模型，其原始能力的提升意味着底层训练数据和架构有了根本性改进。如果属实，说明模型本身的原始能力有了显著跃升。

一些早期测试者认为，GPT 5.6和Anthropic的Mythos在SVG生成和创意Web开发任务上已经超过了Gemini长期保持的领先优势。不过这一说法仍需更多验证。

ChatGPT记忆系统升级

OpenAI同时宣布ChatGPT记忆系统迎来重大升级，目前正向美国Plus和Pro用户推送。新架构建立在此前的"Dreaming"功能之上，能让ChatGPT在持续使用中更好地整合信息。所谓"Dreaming"功能，是指模型在非交互时段对已有对话记忆进行整理、归纳和关联的后台处理机制，类似人类睡眠时大脑整合记忆的过程。用户可以通过新的记忆系统页面直观查看ChatGPT记住的内容。

此外，OpenAI还优化了Codex中构建iOS应用的流程，新的Build iOS App插件可以直接在内置浏览器中查看和测试Swift UI预览。

英伟达Nemotron Ultra：5500亿参数的智能体专用模型

英伟达发布了Nemotron 3 Ultra，一个拥有5500亿参数的MoE前沿模型，专门面向长时间运行的AI智能体任务和复杂自主工作流。

MoE（Mixture of Experts，混合专家）是一种模型架构设计，将模型参数分成多个"专家"子网络，每次推理时只激活其中一小部分（通常是总参数的10-20%）。这就是Nemotron Ultra能在保持高性能的同时大幅降低推理成本的关键——虽然总参数达5500亿，但实际计算量远小于同等规模的Dense模型。相比传统的Dense模型（如早期GPT系列）每次推理都会激活全部参数，MoE架构让模型可以"大而不贵"，特别适合需要广泛知识但对延迟敏感的智能体应用场景。

Nemotron Ultra核心优势

推理速度最高提升5倍
相比其他前沿开放模型，高级智能体任务成本最多降低30%
目前可通过OpenRouter免费访问

Nemotron Ultra实测对比GPT-5.5

Atomic Chat用一系列物理效果HTML5 Canvas模拟对比了Nemotron Ultra和GPT-5.5。结果显示GPT-5.5输出略强，但Nemotron Ultra跟得非常近。真正的差距在成本：Nemotron Ultra完成任务仅花5美分，而GPT-5.5约花57美分——便宜约10倍。对于需要大规模部署智能体的场景，这个成本优势极具吸引力。这种成本差异主要源于MoE架构的计算效率优势，以及英伟达作为GPU制造商在推理基础设施上的独特优化能力。

其他值得关注的AI动态

Google DreamBeans

Google通过Google Labs推出了DreamBeans实验项目，面向美国地区的Google AI Ultra用户。它是一种个人智能系统，根据用户数据和上下文每天生成专属故事内容。虽然不算颠覆性产品，但展示了AI个性化内容生成的新方向——从通用对话助手向深度个性化、主动推送内容的范式转变。

Agent Arena基准测试

Arena推出了新的Agent Arena基准，包含30多万个任务、200万次工具调用和4000万行AI生成代码。这个基准的规模远超此前的评估体系，反映了行业对AI智能体能力评估的需求正在从简单的问答准确率转向复杂的多步骤任务完成能力。排名中GPT 5.5 High位列第一，开启Thinking的Opus 4.7紧随其后。

Google Gemma 4 12B

Google发布了采用Apache 2.0许可证的Gemma 4 12B，设计为强大的多模态AI模型，大多数设备可本地运行。Apache 2.0是最宽松的开源许可证之一，允许商业使用、修改和分发，这意味着开发者和企业可以自由地将Gemma 4集成到商业产品中而无需支付许可费用。12B（120亿）参数的规模使其能在消费级GPU甚至高端笔记本电脑上运行，填补了云端大模型和端侧小模型之间的能力空白。

总结与展望

本周的密集更新清晰地展示了AI竞争的新格局：Anthropic在模型能力上持续突破，OpenAI在产品体验上不断迭代，英伟达则瞄准了智能体场景的性价比优势。随着Oceanus和GPT-5.6的正式发布临近，下一轮模型大战可能在数周内打响。对于开发者和企业用户来说，选择合适的模型将越来越取决于具体使用场景——是追求极致性能，还是优化成本效率，不同厂商正在给出不同的答案。