Step 3.5 Flash深度解析：1960亿参数开源模型击败Gemini的秘密

中国AI公司阶跃星辰（StepFun）近日发布了一款让整个AI圈为之侧目的开源模型——Step 3.5 Flash。这款模型坐拥1960亿参数，运行时却只激活110亿，在多项基准测试中击败了Google的Gemini 3 Flash。更关键的是，它完全开源、免费，甚至可以在本地硬件上跑起来。

阶跃星辰（StepFun）成立于2023年，由前微软全球副总裁姜大昕创立，总部位于上海。公司在成立后迅速完成了多轮大额融资，投资方包括腾讯、阿里巴巴等科技巨头，估值一度超过数十亿美元，是中国AI大模型赛道的头部创业公司之一。阶跃星辰此前已发布过Step系列多个版本的模型，涵盖文本、图像和视频生成等多模态能力。此次发布Step 3.5 Flash并选择完全开源，被视为其在全球开源AI生态中争夺影响力的重要战略举措，也延续了中国AI公司（如DeepSeek、Qwen团队）在2024-2025年间积极参与开源竞争的趋势。

什么是Step 3.5 Flash？

Step 3.5 Flash是阶跃星辰于2025年发布的开源AI大模型。与普通聊天机器人不同，这款模型从底层架构开始就为AI Agent场景量身打造。

所谓AI Agent（智能体），不是简单地回答问题，而是能够自主规划步骤、调用工具、执行任务——不需要用户全程手把手指导。AI Agent是当前AI领域最重要的发展方向之一。与传统的大语言模型（LLM）仅进行单轮或多轮对话不同，AI Agent具备感知环境、自主决策、规划行动和执行任务的完整闭环能力。一个典型的AI Agent工作流程包括：接收用户目标→分解为子任务→选择并调用合适的工具（如搜索引擎、代码执行器、数据库）→评估执行结果→根据反馈调整策略→最终交付成果。OpenAI、Google、Anthropic等头部公司在2024-2025年间纷纷将战略重心从"更聪明的聊天机器人"转向"更能干的AI Agent"，这一转变被业界视为大模型从"能说"到"能做"的关键跃迁。Step 3.5 Flash正是这样一个"不只会说，还能做事"的模型。

Step 3.5 Flash能够自主执行任务

它的代码和权重全部公开，没有付费墙，没有订阅门槛，下载即可使用。在闭源模型主导的当下，这种开放性尤为难得。

核心技术：混合专家架构与多Token预测

MoE混合专家架构：1960亿参数只激活110亿

Step 3.5 Flash最核心的技术亮点是混合专家架构（Mixture of Experts，简称MoE）。模型总共有1960亿参数，但处理任何单一任务时，只激活其中约110亿参数。

打个比方：你有一个200人的专家团队，但每次只派11个最对口的专家上场，其余189人不占用任何资源。这意味着你拿到了大模型级别的智能，却只需要承担小模型级别的计算开销。这就是Step 3.5 Flash既聪明又快速的核心秘密。

MoE并非全新概念，其理论基础可追溯至1991年Michael Jordan和Robert Jacobs的开创性论文。但真正将MoE推向大模型主流的是Google在2022年发布的Switch Transformer。MoE的核心思想是将一个巨大的前馈神经网络拆分为多个"专家"子网络，每个输入token通过一个门控网络（Gating Network）被路由到最相关的少数几个专家进行处理。这种稀疏激活机制使模型能够在保持巨大参数容量（意味着更强的知识存储能力）的同时，将每次推理的实际计算量控制在较低水平。Mistral的Mixtral 8x7B、Google的Gemini系列、以及DeepSeek-V3等模型都采用了MoE架构，它已成为当前大模型设计的主流范式之一。

MTP3多Token预测：每秒生成350个Token

在MoE之上，Step 3.5 Flash还内置了**MTP3（Multi-Token Prediction 3）**技术。每次推理时，模型同时预测3个token，而不是传统的逐个生成。这不是事后打的优化补丁，而是从训练之初就深度集成的核心能力。

模型架构设计

传统的自回归语言模型采用"逐token生成"的方式：每一步只预测下一个token，然后将其作为输入的一部分再预测下下一个token，如此循环。这种串行生成方式是制约推理速度的根本瓶颈。Multi-Token Prediction（MTP）技术通过在模型架构中增加多个预测头（Prediction Heads），使模型在每一步能够同时预测未来多个token。Meta在2024年的研究论文中系统验证了MTP不仅能加速推理，还能在训练阶段提升模型对长程依赖关系的学习能力。DeepSeek-V3也采用了类似的MTP策略。Step 3.5 Flash的MTP3意味着每步同时预测3个token，理论上可将生成速度提升至接近3倍，但实际提升还取决于投机解码（Speculative Decoding）的接受率和硬件并行能力。

这种设计带来的速度提升是复合累积的——每一步生成都在加速，最终在编码任务上达到了每秒350个token的惊人速度。横向对比市面上大多数开源和闭源模型在实际工作负载下的表现，这个数字相当亮眼。

256K上下文窗口与混合注意力机制

Step 3.5 Flash支持256,000个token的上下文窗口。通俗地说，这相当于把一整本书交给模型，它能记住每一页的内容。

上下文窗口（Context Window）决定了模型一次能"看到"多少内容。早期的GPT-3仅支持约4,000个token（约3,000个英文单词），而256K token大约相当于一本500页的书籍。扩展上下文窗口的核心挑战在于Transformer架构中标准自注意力机制的计算复杂度为O(n²)——上下文长度翻倍，计算量增长四倍。

对AI Agent来说，这一点至关重要。Agent在执行复杂任务时需要持续追踪大量上下文——长文档、大型代码库、多步骤项目中的各种细节。256K的上下文容量为Agent提供了充足的"工作记忆"空间。

混合注意力机制同时处理长短内容

模型还采用了混合注意力系统（Hybrid Attention）：对短内容使用滑动窗口注意力（Sliding Window Attention）快速处理，对需要全局理解的长内容则切换为完整注意力机制。滑动窗口注意力通过限制每个token只关注其周围固定范围内的token来降低计算量，适合处理局部依赖性强的内容；而完整注意力机制则让每个token都能关注到全文所有位置，适合需要全局理解的场景。这种混合设计借鉴了Mistral和Jamba等模型的思路，根据内容特性动态切换注意力模式。不管任务是两句话还是200页文档，模型都能自适应调整，在效率和理解深度之间取得精巧的平衡，不在不必要的地方浪费算力。

Step 3.5 Flash vs Gemini 3 Flash：基准测试实测对比

这是所有人最关心的问题：Step 3.5 Flash真的能打败Gemini 3 Flash吗？

在特定基准测试上，答案是肯定的。

在编码测试（如SWE-Bench）上，Step 3.5 Flash表现出色，分数超越了Gemini 3 Flash
在AI Agent任务和推理挑战中，它与参数量远超自身的闭源模型不相上下
它每次只激活110亿参数，却能与全量运行的大模型正面竞争

值得一提的是，SWE-Bench是由普林斯顿大学研究团队于2023年推出的软件工程基准测试，被广泛认为是衡量AI模型实际编程能力的"黄金标准"之一。与传统的代码生成基准（如HumanEval）仅要求模型编写独立函数不同，SWE-Bench从真实的GitHub开源项目中提取了数千个实际的bug修复任务，要求模型理解整个代码仓库的上下文、定位问题所在、并生成正确的修复补丁。这种测试方式更接近真实的软件开发场景，因此被视为评估AI Agent在编码领域实用性的关键指标。

当然，没有哪个模型能在所有基准测试中全面胜出。Gemini 3 Flash在多模态理解等自身擅长的领域依然强劲。但关键在于：Step 3.5 Flash是开源的、免费的，同时具备竞争力的。这三个特质叠加在一起，才是它真正引发关注的原因。

在闭源模型垄断高端性能的格局下，一个开源模型能在AI Agent场景中与顶级闭源模型掰手腕，这本身就是一个重要的里程碑。

本地部署指南：硬件要求与数据隐私

很多开发者最关心的问题是：Step 3.5 Flash能在自己的电脑上跑吗？

答案是可以。 阶跃星辰以GGUF格式发布了模型，并提供了INT4量化版本，大幅压缩了文件体积，使本地部署成为现实。

GGUF（GPT-Generated Unified Format）是由llama.cpp项目创始人Georgi Gerganov开发的模型文件格式，专为本地推理优化。它将模型权重、分词器和元数据统一打包，使得用户无需复杂的环境配置即可在消费级硬件上运行大模型。INT4量化则是一种模型压缩技术：原始模型通常使用FP16（16位浮点数）或BF16存储权重，每个参数占2字节；INT4量化将其压缩为4位整数，每个参数仅占0.5字节，模型体积缩小至原来的约四分之一。虽然量化会带来一定的精度损失，但现代量化算法（如GPTQ、AWQ）已能将损失控制在可接受范围内。对于Step 3.5 Flash这样的MoE模型，INT4量化尤为重要——因为虽然每次只激活110亿参数，但全部1960亿参数的权重仍需加载到内存中，量化大幅降低了内存需求。

通过多种平台获取模型

已验证支持的硬件配置

Apple Mac Studio（M4 Max芯片）——适合个人开发者和独立创作者
NVIDIA DGX系统——适合企业级大规模部署
AMD AI Max硬件——提供更多硬件选择的灵活性

获取与部署方式

获取方式非常便捷：可以直接从Hugging Face下载模型文件在本地运行，也可以通过OpenRouter等API平台在线调用。两种方式各有适用场景，开发者可以根据自身需求灵活选择。

本地运行的核心优势

本地运行AI模型的意义远不止技术层面：

数据隐私保障：所有数据完全留在你的设备上，没有第三方能接触到
零依赖风险：不依赖任何人的服务器，不受服务中断或涨价影响
完全自主可控：你的数据、你的机器、你的规则

对于重视数据安全的企业和个人开发者来说，Step 3.5 Flash的本地部署能力正是他们一直在等待的选项。

Step 3.5 Flash实际应用场景

基于Step 3.5 Flash的技术特性，它在以下几个场景中具有显著优势：

1. 构建自主AI Agent

自主研究主题、起草内容、规划步骤、执行任务，无需人工逐步微管理。这是Step 3.5 Flash的设计初衷，也是它与普通聊天模型的根本区别所在。

2. 软件开发与代码生成

凭借每秒350 token的推理速度和256K的上下文窗口，不少开发者已经在用它进行代码规划、调试和项目构建。对大型代码库的整体理解能力是其突出优势。

3. 长文档分析与处理

256K上下文窗口使其能够处理完整的长篇报告、法律文件或技术文档，而不会"遗忘"前文内容。特别适合需要全文理解的摘要、翻译和审校任务。

4. 隐私敏感行业应用

本地部署能力使Step 3.5 Flash特别适合医疗、金融、法律等对数据隐私有严格合规要求的行业。敏感数据无需上传至云端，合规风险大幅降低。

总结与展望

Step 3.5 Flash的出现代表了开源AI大模型的一次重要突破。它证明了通过精巧的架构设计——MoE混合专家 + MTP3多Token预测 + 混合注意力机制——开源模型完全可以在AI Agent、编码等特定场景中与顶级闭源模型一较高下。

更重要的是，它降低了AI Agent技术的使用门槛：不需要昂贵的云服务，不需要订阅费用，一台配置合理的本地设备就能运行。这种技术民主化的趋势，正在重新定义AI的可及性。

当1960亿参数的开源模型只需激活110亿就能与最强闭源模型竞争时，我们有理由相信，AI模型的效率革命才刚刚开始。