AI周报:Kimi K2.6登顶开源榜,Qwen 3.6与谷歌TTS齐发

AI领域一周密集发布,开源模型正系统性追赶甚至超越闭源模型。
过去一周AI领域迎来密集发布:月之暗面Kimi K2.6登顶开源模型榜首,具备超长程智能体能力;Anthropic发布Opus 4.7和Claude Design,后者可通过对话构建交互原型;阿里巴巴连发Qwen 3.6系列及Happy Oyster 3D世界生成器;谷歌推出情感可控的TTS模型。此外,Ternary Bonsai实现1.58位模型在手机上运行等开源工具百花齐放,开源与闭源竞争进入白热化阶段。
过去一周,AI领域迎来了密集的重磅发布。从月之暗面的Kimi K2.6登顶开源模型榜首,到Anthropic的Claude Design向Figma发起挑战,再到谷歌推出情感可控的TTS模型,以及阿里巴巴接连发布Qwen 3.6系列——开源与闭源的竞争正在进入白热化阶段。本文将系统梳理本周最值得关注的AI进展。
Kimi K2.6:开源模型的新王者
月之暗面发布了Kimi K2.6,直接登顶全球开源模型排行榜,取代了智谱AI的GLM 5.1。更令人瞩目的是,K2.6不仅碾压其他开源模型,还在SWE Bench Pro、深度搜索问答、人类终极考试等顶级测试中,与GPT 5.4、Claude Opus 4.6、Gemini 3.1 Pro等闭源巨头正面交锋并频繁胜出。
K2.6真正的突破在于智能体持久力。它具备「长程编码」能力,能够自主执行超过4000次工具调用,在复杂的DevOps和前端任务中连续运行超过12小时,而不会产生幻觉或迷失目标。此外,它支持一次性释放300个并行子智能体,从单个提示词出发即可生成超过100个文件,无缝编写包含WebGL着色器和Three.js元素的复杂动态前端。
模型权重已在Hugging Face上线,用户也可以直接在Kimi的聊天和智能体模式中测试。这标志着开源模型在智能体能力上的一次质的飞跃。
Anthropic双重出击:Opus 4.7与Claude Design
Opus 4.7:更独立的旗舰模型
Anthropic发布了Claude Opus 4.7,核心升级在于高度自主性。用户不再需要像操作4.6那样逐步微观管理,可以直接将整个宽泛的工作流交给模型处理。视觉能力方面,它现在可以处理宽度超过2500像素的图片,分辨率是旧模型的三倍,对UI设计和智能体计算机操作来说是革命性的提升。
不过需要注意的是,Opus 4.7在编程和创意写作领域表现出色,但在商业管理、金融、体育等方面反而有所退步。如果你在这些特定领域深度工作,暂时坚持4.6可能是更好的选择。
Claude Design:设计师的「恐慌按钮」
Anthropic推出了Claude Design,依托Opus 4.7的视觉模型,用户只需与Claude对话即可构建完全可交互的原型、线框图和演示文稿。它支持行内注释优化界面、自定义滑块实时调整间距和颜色,甚至可以指向代码库或上传品牌文件自动锁定设计系统。设计完成后可直接导出至Canva、PowerPoint或无缝移交Claude Code构建最终产品。

阿里巴巴连发三弹:Qwen 3.6生态全面铺开
Qwen 3.6 35B A3B:极致效率的MoE模型
阿里巴巴推出了Qwen 3.6 35B A3B,这是一个拥有350亿参数的混合专家模型(MoE),但同一时间只有30亿参数处于激活状态,效率极高。在自主编程、高级推理、竞技数学及复杂多模态任务上,它碾压同量级对手,是智能体工作流的理想引擎。模型已完全开源,权重可从Hugging Face获取(约72GB)。
Qwen 3.6 MAX预览版:剑指行业巨头
紧随其后,阿里巴巴又宣布了Qwen 3.6 MAX预览版。该模型在SWE Bench Pro和Terminal Bench等高难度编码测试中,强势击败Claude 4.5 Opus和GLM 5.1。它还引入了Preserve Thinking功能,使模型的推理上下文在长轮次多轮对话中始终保持活跃。不过,这款MAX模型目前属于闭源专有软件,仅可通过阿里云API或Qwen Studio测试。
Happy Oyster:实时交互的3D世界生成器
阿里巴巴旗下的ATH Lab发布了Happy Oyster开放式世界模型,类似谷歌的Genie 3,允许用户创建可实时交互和探索的3D世界。你可以生成各种角色——骑马、滑翔伞、玩滑板甚至骑龙飞行,并通过文本提示进一步引导场景。

谷歌Gemini 3.1 Flash TTS:情感可控的语音革命
谷歌发布了Gemini 3.1 Flash TTS,这可能是目前最具表现力的文本转语音模型。它的核心创新在于让用户化身「声乐导演」——可以将情绪标签直接嵌入文本提示中,精确控制情绪、节奏和语调。
模型能原生处理复杂的非语言声音,如叹息、恐慌和笑声,输出极其自然且富有表现力,轻松媲美甚至超越最新的ElevenLabs版本。它全面支持超过70种语言,拥有海量高质量默认说话人库。目前可通过Gemini API或Google AI Studio免费访问测试。
开源工具百花齐放
NVIDIA Lyra 2.0:轻量级3D世界构建
NVIDIA推出了开源3D世界创建工具Lyra 2.0,通过将标准视频转换为高斯溅射表示的可探索三维空间来解决AI生成环境的「空间遗忘」问题。仅131MB的体积,可在大多数标准硬件上运行,生成的3D环境可直接导出到NVIDIA的仿真平台用于机器人训练。

Ternary Bonsai:1.58位模型让AI跑在手机上
这是本周最具技术突破性的发布之一。Ternary Bonsai是一个1.58位语言模型家族,每个权重被缩减为仅三个值(1、0或-1),比标准16位模型小约9倍。其8B模型仅需1.7GB内存,在标准GPU上速度可超过每秒100 Token,甚至能在移动芯片上运行。在多项推理和编码基准测试中,它击败了Mistral、LLaMA 3.1等模型。
HyperFrames:AI视频创作的开源利器
Agent开源了HyperFrames框架,专为AI智能体设计的视频生成工具。与Remotion需要复杂React代码不同,HyperFrames让AI智能体编写标准HTML即可渲染出完美的MP4视频,原生支持GSAP、Lottie等高级动画,基于Apache 2.0协议开源。
Motive Video 2:小而美的视频生成器
这是一个仅20亿参数的扩散Transformer视频生成器,比阿里的混元小约7倍,训练耗时不到10万GPU小时。尽管规模小了10倍,在VBench基准测试中的表现几乎与顶级开源模型WAN 1.22相当。

其他值得关注的发布
- 腾讯HY World 2.0:多模态世界模型,凭文字、图片或视频片段即可创建可交互3D空间,输出可直接导入Unity或Unreal Engine
- OpenAI GPT-Rosalind:专为生命科学研究的推理模型,可连接超过50个科学数据库,加速药物发现流程
- WildDat3D:在iPhone上通过标准摄像头实现精确3D边界框检测
- OpenGame:首个专为端到端网页游戏创建的全开源智能体框架
- Anagen:从单张图片创建带骨架的3D资产,支持完整动画
- Adobe Token Relight:对2D照片实现实时3D光照控制
总结:开源正在赢得这场竞赛
纵观本周的发布,一个清晰的趋势正在浮现:开源模型正在系统性地缩小与闭源模型的差距,甚至在某些领域实现超越。Kimi K2.6在智能体能力上的突破、Qwen 3.6系列的全面铺开、Ternary Bonsai让模型跑在手机上的技术创新,都在证明开源生态的蓬勃生命力。
话说回来,闭源阵营也没有停下脚步——Anthropic的Claude Design正在重新定义设计工作流,谷歌的TTS模型在表现力上树立了新标杆。这场开源与闭源的竞争,最终受益的是整个AI生态和每一位开发者。
相关推荐
科技前沿GitHub Agent HQ发布:AI编程工具进入平台化竞争时代
GitHub Universe大会发布Agent HQ平台,统一管理编码Agent,Copilot升级支持多模型集成。同期OpenAI完成重组,Anthropic新模型测试,NVIDIA开源系列AI模型,AI编程工具格局加速整合。
科技前沿Gemini 3.5 Flash在GDPval基准上实现巨大飞跃
Google Gemini 3.5 Flash在GDPval基准测试中超越Gemini 3.1 Pro,轻量级Flash模型借助后训练技术逼近前沿水平,重新定义性能与成本的平衡点,为AI应用开发者带来重大利好。
科技前沿Google Gemini Antigravity周配额三倍提升,AI编程不再受限
Google Gemini团队再次将Antigravity周配额提升至三倍,继日配额提升后再次加码。本文解析此次配额调整对开发者的实际影响,以及在AI编程助手竞争格局中的战略意义。