#DeepSeek Sparse Attention

共 2 篇相关文章

深度解析DeepSeek V3.2与V3.2 Special两款新模型，详解DSA稀疏注意力机制如何加速长文本处理、强化学习计算量达预训练10%、1800种环境的Agent任务合成流水线，附实测体验与GPT-5、Gemini 3.0 Pro对比。

DeepSeek发布V3.2-Exp实验版模型，首次引入自研DeepSeek Sparse Attention（DSA）稀疏注意力技术，大幅提升长上下文训练与推理效率，同时API价格下调超50%。本文详解DSA技术原理、模型架构演进及商业策略。