Qwen3.5-Omni发布:215项任务SOTA,阿里全模态大模型硬刚Gemini

阿里发布Qwen3.5-Omni全模态大模型,215项任务达SOTA,系统性超越Gemini 3.1 Pro。
阿里发布新一代全模态大模型Qwen3.5-Omni,采用混合注意力MOE架构,基于超1亿小时音视频数据进行原生多模态预训练,在215项任务中取得SOTA成绩,多项指标系统性超越Google Gemini 3.1 Pro。该模型在商业落地方面展现出音视频Web Coding(画草图说需求生成代码)和长音频视频秒级分析等突破性能力。
概述:大模型感官系统的彻底进化
阿里正式发布了新一代全模态大模型Qwen3.5-Omni,这不是简单的版本迭代,而是大模型感官系统的一次彻底进化。该模型采用混合注意力MOE架构——这是当前大模型领域最重要的效率突破之一。MOE(Mixture of Experts,混合专家)通过引入"门控网络",让每个输入token只激活一小部分"专家"子网络,在保持模型总参数量庞大的同时大幅降低单次推理的计算量;混合注意力则在不同层之间灵活切换全局与局部注意力机制,使模型既能捕捉长距离语义依赖,又能高效处理图像空间局部性和音频时序连续性等异构需求。
基于超过1亿小时音视频数据,Qwen3.5-Omni进行了原生多模态预训练。这与早期"感知模块+语言模型"串联方案有本质区别:第一代多模态方案将视觉编码器或音频编码器的输出向量直接喂给语言模型,跨模态语义对齐发生在推理阶段,模型并未在预训练中真正"见过"多模态并存的世界。原生多模态预训练则从数据构建阶段就将图像、音频、视频与文本混合编排,让模型形成统一的跨模态表征空间,从而具备真正的跨模态推理能力——例如根据视频中人物的面部表情和语气变化同时推断情绪状态,而非分别处理后做简单加法。

在音视频理解、交互等215项任务中,Qwen3.5-Omni拿下了SOTA(State of the Art)成绩,多项关键指标超过Google的Gemini 3.1 Pro。这意味着国产大模型在全模态能力上已经具备了与国际顶尖选手正面较量的实力。
性能对标:215项任务SOTA,系统性超越Gemini 3.1 Pro
从公布的基准测试数据来看,Qwen3.5-Omni在多个维度展现出强劲的竞争力。相比此前的版本,新模型在视觉理解、音频处理和跨模态推理三个核心方向上都有显著提升。

值得注意的是,多模态领域的SOTA评测体系远比纯语言模型复杂,通常涵盖视觉问答(VQA)、光学字符识别(OCR)、视频描述生成、语音识别词错率(WER)、情感分析等数十个子任务。215项任务的SOTA意味着Qwen3.5-Omni在一个高度多元化的评测矩阵中保持了全面领先——这与"刷榜"行为有本质区别,后者通常只针对少数高权重指标进行针对性优化而忽视其他维度的均衡性。这里的"超过Gemini 3.1 Pro"并非单一指标的胜出,而是在多项关键评测中的系统性领先,说明Qwen3.5-Omni的架构设计和训练策略在全模态场景下具有结构性优势,而非依靠某个单点突破来刷榜。
商业落地:从对话框到视听交互的能力跃迁
音视频Web Coding:画草图说需求就能生成代码
最让人兴奋的是Qwen3.5-Omni涌现出的商业落地能力。以音视频Web Coding为例,用户不需要编写任何prompt,只需对着镜头拿着草图说出需求,模型就能自主生成复杂的APP或网页代码。

这一能力的技术难点在于"意图对齐":草图中的一个方框可能是按钮、输入框或卡片容器,模型需要结合语音描述中的上下文语义来消歧,同时将视觉空间信息(布局、UI组件类型)与语音语义信息(功能需求、交互逻辑)融合映射到代码生成任务上。这要求模型具备强大的视觉-语言-代码三模态对齐能力,以及对主流前端框架的深度理解。这种交互方式的变革意义深远——它将AI编程从"文字描述需求"推进到了"视听多模态表达需求"的阶段,预示着"自然语言编程"正在向"多模态意图编程"演进。对于非技术人员来说,画个草图、说句话就能生成可用的代码,这大幅降低了软件开发的门槛。
长音频分析与视频理解:10小时内容秒级处理
Qwen3.5-Omni还能对长达10小时的音频进行细致拆解,甚至能读懂视频里的人物关系和情绪起伏,将繁琐的视频后期工作缩减到秒级完成。

处理10小时长音频对大模型而言是极具挑战性的任务,核心难点在于"长上下文建模
相关推荐
科技前沿GitHub Agent HQ发布:AI编程工具进入平台化竞争时代
GitHub Universe大会发布Agent HQ平台,统一管理编码Agent,Copilot升级支持多模型集成。同期OpenAI完成重组,Anthropic新模型测试,NVIDIA开源系列AI模型,AI编程工具格局加速整合。
科技前沿Gemini 3.5 Flash在GDPval基准上实现巨大飞跃
Google Gemini 3.5 Flash在GDPval基准测试中超越Gemini 3.1 Pro,轻量级Flash模型借助后训练技术逼近前沿水平,重新定义性能与成本的平衡点,为AI应用开发者带来重大利好。
科技前沿Google Gemini Antigravity周配额三倍提升,AI编程不再受限
Google Gemini团队再次将Antigravity周配额提升至三倍,继日配额提升后再次加码。本文解析此次配额调整对开发者的实际影响,以及在AI编程助手竞争格局中的战略意义。