Step 3.5 Flash深度解析:1960亿参数开源模型击败Gemini的秘密

阶跃星辰发布开源模型Step 3.5 Flash,以高效架构在多项测试中击败Gemini 3 Flash。
中国AI公司阶跃星辰发布开源大模型Step 3.5 Flash,采用MoE混合专家架构(1960亿参数仅激活110亿)、MTP3多Token预测和混合注意力机制,实现每秒350 token的推理速度和256K上下文窗口。该模型专为AI Agent场景设计,在SWE-Bench等编码基准测试中超越Google Gemini 3 Flash,且完全免费开源,支持本地部署,降低了高性能AI的使用门槛。
中国AI公司阶跃星辰(StepFun)近日发布了一款让整个AI圈为之侧目的开源模型——Step 3.5 Flash。这款模型坐拥1960亿参数,运行时却只激活110亿,在多项基准测试中击败了Google的Gemini 3 Flash。更关键的是,它完全开源、免费,甚至可以在本地硬件上跑起来。
阶跃星辰(StepFun)成立于2023年,由前微软全球副总裁姜大昕创立,总部位于上海。公司在成立后迅速完成了多轮大额融资,投资方包括腾讯、阿里巴巴等科技巨头,估值一度超过数十亿美元,是中国AI大模型赛道的头部创业公司之一。阶跃星辰此前已发布过Step系列多个版本的模型,涵盖文本、图像和视频生成等多模态能力。此次发布Step 3.5 Flash并选择完全开源,被视为其在全球开源AI生态中争夺影响力的重要战略举措,也延续了中国AI公司(如DeepSeek、Qwen团队)在2024-2025年间积极参与开源竞争的趋势。
什么是Step 3.5 Flash?
Step 3.5 Flash是阶跃星辰于2025年发布的开源AI大模型。与普通聊天机器人不同,这款模型从底层架构开始就为AI Agent场景量身打造。
所谓AI Agent(智能体),不是简单地回答问题,而是能够自主规划步骤、调用工具、执行任务——不需要用户全程手把手指导。AI Agent是当前AI领域最重要的发展方向之一。与传统的大语言模型(LLM)仅进行单轮或多轮对话不同,AI Agent具备感知环境、自主决策、规划行动和执行任务的完整闭环能力。一个典型的AI Agent工作流程包括:接收用户目标→分解为子任务→选择并调用合适的工具(如搜索引擎、代码执行器、数据库)→评估执行结果→根据反馈调整策略→最终交付成果。OpenAI、Google、Anthropic等头部公司在2024-2025年间纷纷将战略重心从"更聪明的聊天机器人"转向"更能干的AI Agent",这一转变被业界视为大模型从"能说"到"能做"的关键跃迁。Step 3.5 Flash正是这样一个"不只会说,还能做事"的模型。

它的代码和权重全部公开,没有付费墙,没有订阅门槛,下载即可使用。在闭源模型主导的当下,这种开放性尤为难得。
核心技术:混合专家架构与多Token预测
MoE混合专家架构:1960亿参数只激活110亿
Step 3.5 Flash最核心的技术亮点是混合专家架构(Mixture of Experts,简称MoE)。模型总共有1960亿参数,但处理任何单一任务时,只激活其中约110亿参数。
打个比方:你有一个200人的专家团队,但每次只派11个最对口的专家上场,其余189人不占用任何资源。这意味着你拿到了大模型级别的智能,却只需要承担小模型级别的计算开销。这就是Step 3.5 Flash既聪明又快速的核心秘密。
MoE并非全新概念,其理论基础可追溯至1991年Michael Jordan和Robert Jacobs的开创性论文。但真正将MoE推向大模型主流的是Google在2022年发布的Switch Transformer。MoE的核心思想是将一个巨大的前馈神经网络拆分为多个"专家"子网络,每个输入token通过一个门控网络(Gating Network)被路由到最相关的少数几个专家进行处理。这种稀疏激活机制使模型能够在保持巨大参数容量(意味着更强的知识存储能力)的同时,将每次推理的实际计算量控制在较低水平。Mistral的Mixtral 8x7B、Google的Gemini系列、以及DeepSeek-V3等模型都采用了MoE架构,它已成为当前大模型设计的主流范式之一。
MTP3多Token预测:每秒生成350个Token
在MoE之上,Step 3.5 Flash还内置了**MTP3(Multi-Token Prediction 3)**技术。每次推理时,模型同时预测3个token,而不是传统的逐个生成。这不是事后打的优化补丁,而是从训练之初就深度集成的核心能力。

传统的自回归语言模型采用"逐token生成"的方式:每一步只预测下一个token,然后将其作为输入的一部分再预测下下一个token,如此循环。这种串行生成方式是制约推理速度的根本瓶颈。Multi-Token Prediction(MTP)技术通过在模型架构中增加多个预测头(Prediction Heads),使模型在每一步能够同时预测未来多个token。Meta在2024年的研究论文中系统验证了MTP不仅能加速推理,还能在训练阶段提升模型对长程依赖关系的学习能力。DeepSeek-V3也采用了类似的MTP策略。Step 3.5 Flash的MTP3意味着每步同时预测3个token,理论上可将生成速度提升至接近3倍,但实际提升还取决于投机解码(Speculative Decoding)的接受率和硬件并行能力。
这种设计带来的速度提升是复合累积的——每一步生成都在加速,最终在编码任务上达到了每秒350个token的惊人速度。横向对比市面上大多数开源和闭源模型在实际工作负载下的表现,这个数字相当亮眼。
256K上下文窗口与混合注意力机制
Step 3.5 Flash支持256,000个token的上下文窗口。通俗地说,这相当于把一整本书交给模型,它能记住每一页的内容。
上下文窗口(Context Window)决定了模型一次能"看到"多少内容。早期的GPT-3仅支持约4,000个token(约3,000个英文单词),而256K token大约相当于一本500页的书籍。扩展上下文窗口的核心挑战在于Transformer架构中标准自注意力机制的计算复杂度为O(n²)——上下文长度翻倍,计算量增长四倍。
对AI Agent来说,这一点至关重要。Agent在执行复杂任务时需要持续追踪大量上下文——长文档、大型代码库、多步骤项目中的各种细节。256K的上下文容量为Agent提供了充足的"工作记忆"空间。

模型还采用了混合注意力系统(Hybrid Attention):对短内容使用滑动窗口注意力(Sliding Window Attention)快速处理,对需要全局理解的长内容则切换为完整注意力机制。滑动窗口注意力通过限制每个token只关注其周围固定范围内的token来降低计算量,适合处理局部依赖性强的内容;而完整注意力机制则让每个token都能关注到全文所有位置,适合需要全局理解的场景。这种混合设计借鉴了Mistral和Jamba等模型的思路,根据内容特性动态切换注意力模式。不管任务是两句话还是200页文档,模型都能自适应调整,在效率和理解深度之间取得精巧的平衡,不在不必要的地方浪费算力。
Step 3.5 Flash vs Gemini 3 Flash:基准测试实测对比
这是所有人最关心的问题:Step 3.5 Flash真的能打败Gemini 3 Flash吗?
在特定基准测试上,答案是肯定的。
- 在编码测试(如SWE-Bench)上,Step 3.5 Flash表现出色,分数超越了Gemini 3 Flash
- 在AI Agent任务和推理挑战中,它与参数量远超自身的闭源模型不相上下
- 它每次只激活110亿参数,却能与全量运行的大模型正面竞争
值得一提的是,SWE-Bench是由普林斯顿大学研究团队于2023年推出的软件工程基准测试,被广泛认为是衡量AI模型实际编程能力的"黄金标准"之一。与传统的代码生成基准(如HumanEval)仅要求模型编写独立函数不同,SWE-Bench从真实的GitHub开源项目中提取了数千个实际的bug修复任务,要求模型理解整个代码仓库的上下文、定位问题所在、并生成正确的修复补丁。这种测试方式更接近真实的软件开发场景,因此被视为评估AI Agent在编码领域实用性的关键指标。
当然,没有哪个模型能在所有基准测试中全面胜出。Gemini 3 Flash在多模态理解等自身擅长的领域依然强劲。但关键在于:Step 3.5 Flash是开源的、免费的,同时具备竞争力的。这三个特质叠加在一起,才是它真正引发关注的原因。
在闭源模型垄断高端性能的格局下,一个开源模型能在AI Agent场景中与顶级闭源模型掰手腕,这本身就是一个重要的里程碑。
本地部署指南:硬件要求与数据隐私
很多开发者最关心的问题是:Step 3.5 Flash能在自己的电脑上跑吗?
答案是可以。 阶跃星辰以GGUF格式发布了模型,并提供了INT4量化版本,大幅压缩了文件体积,使本地部署成为现实。
GGUF(GPT-Generated Unified Format)是由llama.cpp项目创始人Georgi Gerganov开发的模型文件格式,专为本地推理优化。它将模型权重、分词器和元数据统一打包,使得用户无需复杂的环境配置即可在消费级硬件上运行大模型。INT4量化则是一种模型压缩技术:原始模型通常使用FP16(16位浮点数)或BF16存储权重,每个参数占2字节;INT4量化将其压缩为4位整数,每个参数仅占0.5字节,模型体积缩小至原来的约四分之一。虽然量化会带来一定的精度损失,但现代量化算法(如GPTQ、AWQ)已能将损失控制在可接受范围内。对于Step 3.5 Flash这样的MoE模型,INT4量化尤为重要——因为虽然每次只激活110亿参数,但全部1960亿参数的权重仍需加载到内存中,量化大幅降低了内存需求。

已验证支持的硬件配置
- Apple Mac Studio(M4 Max芯片)——适合个人开发者和独立创作者
- NVIDIA DGX系统——适合企业级大规模部署
- AMD AI Max硬件——提供更多硬件选择的灵活性
获取与部署方式
获取方式非常便捷:可以直接从Hugging Face下载模型文件在本地运行,也可以通过OpenRouter等API平台在线调用。两种方式各有适用场景,开发者可以根据自身需求灵活选择。
本地运行的核心优势
本地运行AI模型的意义远不止技术层面:
- 数据隐私保障:所有数据完全留在你的设备上,没有第三方能接触到
- 零依赖风险:不依赖任何人的服务器,不受服务中断或涨价影响
- 完全自主可控:你的数据、你的机器、你的规则
对于重视数据安全的企业和个人开发者来说,Step 3.5 Flash的本地部署能力正是他们一直在等待的选项。
Step 3.5 Flash实际应用场景
基于Step 3.5 Flash的技术特性,它在以下几个场景中具有显著优势:
1. 构建自主AI Agent
自主研究主题、起草内容、规划步骤、执行任务,无需人工逐步微管理。这是Step 3.5 Flash的设计初衷,也是它与普通聊天模型的根本区别所在。
2. 软件开发与代码生成
凭借每秒350 token的推理速度和256K的上下文窗口,不少开发者已经在用它进行代码规划、调试和项目构建。对大型代码库的整体理解能力是其突出优势。
3. 长文档分析与处理
256K上下文窗口使其能够处理完整的长篇报告、法律文件或技术文档,而不会"遗忘"前文内容。特别适合需要全文理解的摘要、翻译和审校任务。
4. 隐私敏感行业应用
本地部署能力使Step 3.5 Flash特别适合医疗、金融、法律等对数据隐私有严格合规要求的行业。敏感数据无需上传至云端,合规风险大幅降低。
总结与展望
Step 3.5 Flash的出现代表了开源AI大模型的一次重要突破。它证明了通过精巧的架构设计——MoE混合专家 + MTP3多Token预测 + 混合注意力机制——开源模型完全可以在AI Agent、编码等特定场景中与顶级闭源模型一较高下。
更重要的是,它降低了AI Agent技术的使用门槛:不需要昂贵的云服务,不需要订阅费用,一台配置合理的本地设备就能运行。这种技术民主化的趋势,正在重新定义AI的可及性。
当1960亿参数的开源模型只需激活110亿就能与最强闭源模型竞争时,我们有理由相信,AI模型的效率革命才刚刚开始。
相关推荐
科技前沿GitHub Agent HQ发布:AI编程工具进入平台化竞争时代
GitHub Universe大会发布Agent HQ平台,统一管理编码Agent,Copilot升级支持多模型集成。同期OpenAI完成重组,Anthropic新模型测试,NVIDIA开源系列AI模型,AI编程工具格局加速整合。
科技前沿Gemini 3.5 Flash在GDPval基准上实现巨大飞跃
Google Gemini 3.5 Flash在GDPval基准测试中超越Gemini 3.1 Pro,轻量级Flash模型借助后训练技术逼近前沿水平,重新定义性能与成本的平衡点,为AI应用开发者带来重大利好。
科技前沿Google Gemini Antigravity周配额三倍提升,AI编程不再受限
Google Gemini团队再次将Antigravity周配额提升至三倍,继日配额提升后再次加码。本文解析此次配额调整对开发者的实际影响,以及在AI编程助手竞争格局中的战略意义。