AI周报：Kimi K2.6登顶开源榜，Qwen 3.6与谷歌TTS齐发

过去一周，AI领域迎来了密集的重磅发布。从月之暗面的Kimi K2.6登顶开源模型榜首，到Anthropic的Claude Design向Figma发起挑战，再到谷歌推出情感可控的TTS模型，以及阿里巴巴接连发布Qwen 3.6系列——开源与闭源的竞争正在进入白热化阶段。本文将系统梳理本周最值得关注的AI进展。

Kimi K2.6：开源模型的新王者

月之暗面发布了Kimi K2.6，直接登顶全球开源模型排行榜，取代了智谱AI的GLM 5.1。更令人瞩目的是，K2.6不仅碾压其他开源模型，还在SWE Bench Pro、深度搜索问答、人类终极考试等顶级测试中，与GPT 5.4、Claude Opus 4.6、Gemini 3.1 Pro等闭源巨头正面交锋并频繁胜出。

K2.6真正的突破在于智能体持久力。它具备「长程编码」能力，能够自主执行超过4000次工具调用，在复杂的DevOps和前端任务中连续运行超过12小时，而不会产生幻觉或迷失目标。此外，它支持一次性释放300个并行子智能体，从单个提示词出发即可生成超过100个文件，无缝编写包含WebGL着色器和Three.js元素的复杂动态前端。

模型权重已在Hugging Face上线，用户也可以直接在Kimi的聊天和智能体模式中测试。这标志着开源模型在智能体能力上的一次质的飞跃。

Anthropic双重出击：Opus 4.7与Claude Design

Opus 4.7：更独立的旗舰模型

Anthropic发布了Claude Opus 4.7，核心升级在于高度自主性。用户不再需要像操作4.6那样逐步微观管理，可以直接将整个宽泛的工作流交给模型处理。视觉能力方面，它现在可以处理宽度超过2500像素的图片，分辨率是旧模型的三倍，对UI设计和智能体计算机操作来说是革命性的提升。

不过需要注意的是，Opus 4.7在编程和创意写作领域表现出色，但在商业管理、金融、体育等方面反而有所退步。如果你在这些特定领域深度工作，暂时坚持4.6可能是更好的选择。

Claude Design：设计师的「恐慌按钮」

Anthropic推出了Claude Design，依托Opus 4.7的视觉模型，用户只需与Claude对话即可构建完全可交互的原型、线框图和演示文稿。它支持行内注释优化界面、自定义滑块实时调整间距和颜色，甚至可以指向代码库或上传品牌文件自动锁定设计系统。设计完成后可直接导出至Canva、PowerPoint或无缝移交Claude Code构建最终产品。

Claude Design与AI设计工具展示

阿里巴巴连发三弹：Qwen 3.6生态全面铺开

Qwen 3.6 35B A3B：极致效率的MoE模型

阿里巴巴推出了Qwen 3.6 35B A3B，这是一个拥有350亿参数的混合专家模型（MoE），但同一时间只有30亿参数处于激活状态，效率极高。在自主编程、高级推理、竞技数学及复杂多模态任务上，它碾压同量级对手，是智能体工作流的理想引擎。模型已完全开源，权重可从Hugging Face获取（约72GB）。

Qwen 3.6 MAX预览版：剑指行业巨头

紧随其后，阿里巴巴又宣布了Qwen 3.6 MAX预览版。该模型在SWE Bench Pro和Terminal Bench等高难度编码测试中，强势击败Claude 4.5 Opus和GLM 5.1。它还引入了Preserve Thinking功能，使模型的推理上下文在长轮次多轮对话中始终保持活跃。不过，这款MAX模型目前属于闭源专有软件，仅可通过阿里云API或Qwen Studio测试。

Happy Oyster：实时交互的3D世界生成器

阿里巴巴旗下的ATH Lab发布了Happy Oyster开放式世界模型，类似谷歌的Genie 3，允许用户创建可实时交互和探索的3D世界。你可以生成各种角色——骑马、滑翔伞、玩滑板甚至骑龙飞行，并通过文本提示进一步引导场景。

3D世界生成效果展示

谷歌Gemini 3.1 Flash TTS：情感可控的语音革命

谷歌发布了Gemini 3.1 Flash TTS，这可能是目前最具表现力的文本转语音模型。它的核心创新在于让用户化身「声乐导演」——可以将情绪标签直接嵌入文本提示中，精确控制情绪、节奏和语调。

模型能原生处理复杂的非语言声音，如叹息、恐慌和笑声，输出极其自然且富有表现力，轻松媲美甚至超越最新的ElevenLabs版本。它全面支持超过70种语言，拥有海量高质量默认说话人库。目前可通过Gemini API或Google AI Studio免费访问测试。

开源工具百花齐放

NVIDIA Lyra 2.0：轻量级3D世界构建

NVIDIA推出了开源3D世界创建工具Lyra 2.0，通过将标准视频转换为高斯溅射表示的可探索三维空间来解决AI生成环境的「空间遗忘」问题。仅131MB的体积，可在大多数标准硬件上运行，生成的3D环境可直接导出到NVIDIA的仿真平台用于机器人训练。

Lyra 2.0 3D重建效果

Ternary Bonsai：1.58位模型让AI跑在手机上

这是本周最具技术突破性的发布之一。Ternary Bonsai是一个1.58位语言模型家族，每个权重被缩减为仅三个值（1、0或-1），比标准16位模型小约9倍。其8B模型仅需1.7GB内存，在标准GPU上速度可超过每秒100 Token，甚至能在移动芯片上运行。在多项推理和编码基准测试中，它击败了Mistral、LLaMA 3.1等模型。

HyperFrames：AI视频创作的开源利器

Agent开源了HyperFrames框架，专为AI智能体设计的视频生成工具。与Remotion需要复杂React代码不同，HyperFrames让AI智能体编写标准HTML即可渲染出完美的MP4视频，原生支持GSAP、Lottie等高级动画，基于Apache 2.0协议开源。

Motive Video 2：小而美的视频生成器

这是一个仅20亿参数的扩散Transformer视频生成器，比阿里的混元小约7倍，训练耗时不到10万GPU小时。尽管规模小了10倍，在VBench基准测试中的表现几乎与顶级开源模型WAN 1.22相当。

Motive Video 2生成效果

其他值得关注的发布

腾讯HY World 2.0：多模态世界模型，凭文字、图片或视频片段即可创建可交互3D空间，输出可直接导入Unity或Unreal Engine
OpenAI GPT-Rosalind：专为生命科学研究的推理模型，可连接超过50个科学数据库，加速药物发现流程
WildDat3D：在iPhone上通过标准摄像头实现精确3D边界框检测
OpenGame：首个专为端到端网页游戏创建的全开源智能体框架
Anagen：从单张图片创建带骨架的3D资产，支持完整动画
Adobe Token Relight：对2D照片实现实时3D光照控制

总结：开源正在赢得这场竞赛

纵观本周的发布，一个清晰的趋势正在浮现：开源模型正在系统性地缩小与闭源模型的差距，甚至在某些领域实现超越。Kimi K2.6在智能体能力上的突破、Qwen 3.6系列的全面铺开、Ternary Bonsai让模型跑在手机上的技术创新，都在证明开源生态的蓬勃生命力。

话说回来，闭源阵营也没有停下脚步——Anthropic的Claude Design正在重新定义设计工作流，谷歌的TTS模型在表现力上树立了新标杆。这场开源与闭源的竞争，最终受益的是整个AI生态和每一位开发者。