共 2 篇相关文章
深度解读深度解析DeepSeek V3.2与V3.2 Special两款新模型,详解DSA稀疏注意力机制如何加速长文本处理、强化学习计算量达预训练10%、1800种环境的Agent任务合成流水线,附实测体验与GPT-5、Gemini 3.0 Pro对比。
科技前沿DeepSeek发布V3.2-Exp实验版模型,首次引入自研DeepSeek Sparse Attention(DSA)稀疏注意力技术,大幅提升长上下文训练与推理效率,同时API价格下调超50%。本文详解DSA技术原理、模型架构演进及商业策略。