微软Build 2026：自研推理模型MAI Thinking-E及AI全家桶深度解析

微软Build 2026：首款自研推理模型MAI Thinking-E正式亮相

微软Build 2026开发者大会于6月4日举行，会上发布了多款AI新产品和新技术。其中最受关注的当属微软首款自研高级推理模型MAI Thinking-E（MAI Thinking-1系列）。这标志着微软不再仅仅依赖OpenAI的模型能力，开始在自研大模型领域正式发力。

据官方披露，MAI Thinking-E的实际参数量约为1T（万亿），激活参数约35B，采用了MoE（混合专家）架构。MoE（Mixture of Experts）是当前大模型领域的主流技术路线之一，其核心思想是将模型拆分为多个"专家"子网络，每次推理时只激活其中一部分专家来处理输入，而非让所有参数同时参与计算。这解释了为何MAI Thinking-E总参数量高达1T，但激活参数仅约35B——在实际推理时，模型通过门控网络（Gating Network）动态选择最相关的专家模块，从而在保持大模型知识容量的同时显著降低计算成本。Google的Switch Transformer、Mixtral以及DeepSeek V3等知名模型均采用了类似架构，这种设计使得超大规模模型的商业化落地成为可能。

微软官方特别强调，该模型未蒸馏任何第三方模型，完全采用干净的训练数据进行训练。这一声明在当前行业语境下具有特殊意义。模型蒸馏（Knowledge Distillation）是指用一个大型"教师模型"的输出来训练一个较小的"学生模型"，使后者以更低成本获得接近前者的能力。此前行业内多家厂商被发现使用OpenAI等头部模型的输出作为训练数据来提升自家模型性能，这在知识产权和技术独立性方面引发了广泛争议。微软此次明确表态"干净训练"，既是对自身技术实力的展示，也是在商业合规层面划清界限，证明其模型能力完全来自自有研发，展现了微软在AI基础研究上的独立能力。

MAI Thinking-E在数学、科学等领域表现不错

从基准测试数据来看，MAI Thinking-E的表现呈现出明显的"偏科"特征：在两个编码测试中仅达到DeepSeek V3.2的水平，但在数学、科学等推理密集型领域表现不错，展现出较强的逻辑推理能力。值得一提的是，MAI Thinking-E作为"推理模型"（Reasoning Model），与传统的大语言模型有本质区别。传统语言模型主要通过预测下一个token来生成文本，而推理模型在此基础上引入了"思维链"（Chain-of-Thought）机制，能够在生成最终答案前进行多步逻辑推演。OpenAI的o1/o3系列、DeepSeek R1等都属于这一类别。推理模型通常在数学证明、科学分析等需要多步骤逻辑推导的任务上表现显著优于传统模型，但相应地推理延迟更高、计算成本更大。MAI Thinking-E在数学和科学领域表现突出而编码相对偏弱的特征，也反映了推理能力在不同领域的迁移并非均匀的行业共性问题。整体来看，该模型正在追赶Anthropic的Claude Sonnet系列，虽然尚有差距，但作为微软自研模型的"第一步"已属不易。

微软AI全家桶：6款垂直模型覆盖图像、语音、转录

除了旗舰推理模型外，微软还一口气发布了6款垂直领域模型，覆盖图像、语音、转录等多个方向：

MAI Image 2.5及Flash版本：图像生成模型
MAI Voice 2及Flash版本：语音生成模型
MAI Transcribe 1.5：语言转录模型

据介绍，这些垂直模型在各自领域均达到了业内前三的水平。用户可前往微软Foundry平台进行体验。

微软Foundry平台体验入口

此外，微软还推出了编码模型MAI Code 1，主打高速稳定，对标Codestral 4.5等竞品。该模型将集成到GitHub Copilot和VS Code中，直接服务于开发者的日常编码工作流。GitHub Copilot是微软旗下最成功的AI商业化产品之一，自2021年推出以来已积累超过百万付费用户，它以VS Code插件的形式嵌入开发者工作流，提供代码补全、代码生成、代码解释等功能。此前Copilot主要依赖OpenAI的Codex和GPT系列模型，而MAI Code 1的推出意味着微软开始在这一核心产品中注入自研模型能力。其对标的Codestral 4.5是Mistral AI推出的专用编码模型，在代码生成速度和准确性方面具有较强竞争力。微软将自研编码模型直接集成到拥有庞大用户基础的Copilot和VS Code中，这种"模型即服务"的分发策略能够快速获取真实用户反馈并迭代优化，形成数据飞轮效应。这一布局意味着微软正在构建从基础模型到应用层的完整AI技术栈。

OpenAI服务大规模崩溃与Codex功能更新

就在微软大会前夕，OpenAI遭遇了一次严重的服务事故。从6月3日晚间到4日早间，ChatGPT、Codex以及API服务陆续出现大规模崩溃和错误，部分用户在数小时内完全无法使用。更令人意外的是，Codex中的GPT-MH2模型直接从应用中消失。OpenAI官方紧急介入修复，截至下午4点才恢复大部分服务。

此次大规模服务崩溃并非孤例。随着ChatGPT月活用户突破数亿、API调用量持续攀升，OpenAI的基础设施承受着前所未有的压力。其服务架构高度依赖微软Azure云平台提供的GPU算力集群，任何底层硬件故障、网络波动或软件更新都可能引发连锁反应。GPT-MH2模型从Codex中消失这一异常现象，暗示可能涉及模型部署或版本管理层面的问题，而非简单的流量过载。这也从侧面说明了为何微软要发展自研模型——过度依赖单一模型供应商的风险正在显现。

Codex中的GPT-MH2模型消失

不过，OpenAI也在同期推出了Codex的多项重要更新：

6款领域插件

涵盖销售、股票、银行、设计、创意、数据分析等领域，每款插件集成多个应用和技能，提供开箱即用的体验。

Annotations批注功能

用户可在AI生成的内容中通过批注操作实现定向修改或提问，大幅提升了人机协作的精细度。这一功能的设计理念类似于文档协作工具中的批注和评论机制，但应用于AI生成内容的场景下，使用户能够对特定段落、句子甚至词语进行精准的反馈和调整指令，而非重新描述整体需求，显著降低了迭代修改的沟通成本。

Annotations批注功能

Sites交互式网站设计

支持用户将各种想法转化为托管式交互网站或应用，可通过URL直接访问和分享。以上功能将优先面向Business和Enterprise用户开放。

千问APP开放生态与Gemini Agent桌面客户端

国内方面，千问APP宣布向第三方Agent和Skill全面开放，所有企业均可接入Skill，未来也可在千问平台运营企业专属Agent。这一举措本质上是在复刻移动互联网时代的"应用商店"模式。在AI Agent语境下，Agent是指能够自主规划、调用工具并完成复杂任务的智能体，而Skill则是Agent可调用的具体能力模块（如查询航班、预订酒店、分析数据等）。千问的开放策略与OpenAI的GPTs商店、字节跳动的扣子（Coze）平台思路类似，都是试图成为AI时代的"超级入口"——用户无需在多个应用间切换，通过一个统一的AI助手即可调用各类第三方服务。这种平台化战略的核心竞争力在于用户规模和生态丰富度，先发优势和网络效应将是决定胜负的关键因素。首批企业已开始提供服务，Agent和Skill接入平台将于近期上线。千问希望通过开放生态，为用户打造一个"万能AI助手"。

此外，Gemini Agent（Google旗下）官方发布了原生桌面端客户端，整体前端设计偏向简洁风格，暂不支持中文，将支持macOS、Windows和Linux三大系统，可前往官方页面下载安装。Gemini Agent推出原生桌面客户端的举措值得关注——相比网页端，桌面客户端能够更深度地与操作系统集成，实现文件管理、应用调用、系统级快捷键等功能，这对于AI Agent执行跨应用的复杂任务至关重要，也预示着AI助手正在从"对话窗口"向"操作系统级伙伴"演进。

行业观察：从单一模型竞争走向全栈能力竞争

微软此次集中发布自研模型矩阵，释放了一个明确信号：即便与OpenAI保持深度合作，微软也在积极构建自己的AI模型能力。MAI Thinking-E虽然在编码领域还有提升空间，但在推理和科学计算方面的表现证明了微软的技术积累。

从更宏观的视角看，AI行业正在从"单一模型竞争"转向"全栈能力竞争"。微软同时布局推理模型、垂直模型、编码模型，并通过GitHub Copilot和VS Code等开发者工具进行分发，这种"模型+平台+工具"的三位一体策略，可能比单纯追求基准测试分数更具商业价值。这一趋势在行业中已有先例：Google通过Gemini模型+Android/Chrome生态+Google Cloud形成闭环，Meta则通过Llama开源模型+社交平台+广告系统构建差异化优势。微软的独特之处在于其拥有全球最大的企业级软件生态（Office 365、Azure、GitHub、LinkedIn等），这意味着其AI模型从诞生之日起就拥有海量的企业级应用场景和分发渠道，这种"生态护城河"是纯模型公司难以复制的竞争壁垒。

微软Build 2026：自研推理模型MAI Thinking-E及AI全家桶深度解析

微软Build 2026：首款自研推理模型MAI Thinking-E正式亮相

微软AI全家桶：6款垂直模型覆盖图像、语音、转录

OpenAI服务大规模崩溃与Codex功能更新

6款领域插件

Annotations批注功能

Sites交互式网站设计

千问APP开放生态与Gemini Agent桌面客户端

行业观察：从单一模型竞争走向全栈能力竞争

核心要点

相关推荐

Claude Sonnet 4深度体验：两条指令复刻Lovable的实战测试

Replit领域专用Agent：一键批量修复SEO和安全漏洞

APImart体验：一站式低价调用GPT、Claude等主流大模型