#SGLang

共 18 篇相关文章

产品体验

2026年6月3日·7 分钟

Manus实测：基于DeepSeek技术路线的AI Agent表现如何

实测Manus AI Agent在DeepSeek技术路线下的实际表现，分析其任务执行流程、中文推理能力、表现亮点与不足，探讨国产大模型在Agent应用场景中的潜力与优化方向。

阅读全文 →

科技前沿

2026年6月3日·7 分钟

DeepSeek-V3.2发布：编程与数学能力跻身全球第一梯队

DeepSeek-V3.2版本发布，编程、数学和Agent开发能力追平Gemini 3.0 Pro，刷新开源模型SOTA记录。本文详解V3.2性能提升亮点、适用场景及部署建议。

阅读全文 →

教程攻略

2026年6月2日·10 分钟

llama.cpp MTP加速部署指南：配置步骤与性能实测

详解llama.cpp如何启用MTP多Token预测加速技术，涵盖CUDA环境配置、桌面端设置、模型选择及实测性能数据，Qwen3 27B实测近60 Token/s。

阅读全文 →

行业洞察

2026年5月30日·5 分钟

SGLang进军金融业：AI推理基础设施如何重塑华尔街

SGLang联合Crusoe AI、Cloudflare等举办金融AI推理活动，探讨LLM推理框架在交易、风控、合规等场景的落地应用，解析AI推理基础设施垂直化趋势及金融行业部署前景。

阅读全文 →

教程攻略

2026年5月30日·6 分钟

AMD GPU部署PD分离式SGLang多节点推理集群教程

详解如何在AMD GPU上部署PD分离式SGLang推理集群，通过单一配置文件实现Prefill-Decode解耦的多节点部署，提升大模型推理吞吐量与延迟表现，附架构原理与适用场景分析。

阅读全文 →

SGLang v0.5.12.post1发布：DeepSeek V4稳定性修复与Blackwell适配

科技前沿

2026年5月30日·6 分钟

SGLang v0.5.12.post1发布：DeepSeek V4稳定性修复与Blackwell适配

SGLang v0.5.12.post1稳定性补丁详解，包含12项关键修复，涵盖DeepSeek V4乱码与崩溃问题、NIXL PD分离式推理逻辑修复、Blackwell B300架构适配及冷启动性能优化。

阅读全文 →

科技前沿

2026年5月30日·7 分钟

Step 3.7 Flash：198B稀疏MoE多模态模型深度解析

深度解析StepFun AI发布的Step 3.7 Flash，一款198B参数稀疏MoE视觉语言模型，支持256K上下文与三级推理，在多模态理解、AI编程和Agent工具编排方面表现顶尖，已获SGLang首日支持。

阅读全文 →

前沿研究

2026年5月30日·7 分钟

Agent Loops实战：从CUDA内核到自动化研究的Token生产力转化

深入解析Humanize框架如何通过Agent Loop将LLM Token转化为工程生产力。涵盖KDA自动编写CUDA内核获竞赛冠军、虚拟硬件优化、研究成本削减50%三大实战案例，探讨Agent-Centric研究的未来方向。

阅读全文 →

Cloudflare向SGLang贡献KV Cache与Mooncake关键修复

科技前沿

2026年5月30日·5 分钟

Cloudflare向SGLang贡献KV Cache与Mooncake关键修复

Cloudflare向SGLang上游提交decode KV cache offload和Mooncake recovery两项关键修复，解决高并发场景下Kimi K2.6模型乱码输出问题，并实现分布式推理节点自动故障恢复，提升生产环境稳定性。

阅读全文 →

AMD MI355X击败B200：DeepSeek-R1推理TCO低5%的全栈优化解析

行业洞察

2026年5月30日·7 分钟

AMD MI355X击败B200：DeepSeek-R1推理TCO低5%的全栈优化解析

AMD Instinct MI355X通过SGLang+MoRI全栈优化，在DeepSeek-R1分离式推理中实现TCO比NVIDIA B200低5%，每GPU吞吐量高1.25倍。深度解析MoRI量化通信、KV Cache优化及推测解码等核心技术突破。

阅读全文 →

SGLang举办Agent Loops主题Office Hour，聚焦智能体循环架构优化

科技前沿

2026年5月30日·5 分钟

SGLang举办Agent Loops主题Office Hour，聚焦智能体循环架构优化

SGLang团队举办Agent Loops主题Office Hour，深入探讨智能体循环调用的推理优化方案，涵盖KV Cache复用、低延迟多轮对话及工具调用等关键技术，助力AI Agent开发者提升推理性能。

阅读全文 →

科技前沿

2026年5月30日·6 分钟

LFM2.5-8B-A1B：1.5B激活参数实现4倍体量效果的MoE模型

Liquid AI发布LFM2.5-8B-A1B模型，采用MoE架构，8B总参数仅激活1.5B，在工具调用场景中媲美6B级模型表现。支持128K上下文、本地部署、多语言，SGLang即时支持。

阅读全文 →

行业洞察

2026年5月29日·9 分钟

大模型三大岗位深度解析：门槛、技术栈与职业前景

深度解析大模型应用工程师、研发工程师、算法工程师三大核心岗位的技术要求、薪资门槛与发展前景，涵盖RAG、模型微调、推理部署等关键技术栈，助你制定清晰的AI职业规划路径。

阅读全文 →

教程攻略

2026年5月28日·9 分钟

大模型命名规则解析：参数量、量化格式与显存需求速查

系统拆解大模型命名规则，解释32B参数量、AWQ/GGUF量化格式的含义，提供4-bit量化显存估算公式与速查表，涵盖MOE模型显存陷阱、IMatrix量化推荐及按显存档位的模型选择建议。

阅读全文 →

教程攻略

2026年5月21日·5 分钟

vLLM与SGLang本地部署教程：性能提升3-8倍的实战指南

详解vLLM和SGLang本地部署全流程，对比LM Studio性能差距，通过Docker+AI助手三步完成部署。涵盖SGLang与vLLM选型建议、5090显存优化、Qwen3模型推荐及Cherry Studio接入方法。

阅读全文 →

教程攻略

2026年5月16日·9 分钟

OpenAI开源GPT-OSS：16G显存跑O4级模型，部署教程全解析

OpenAI正式开源GPT-OSS系列模型（20B/120B），采用MOE架构+FP4混合精度，单卡4090即可运行O3级推理模型。本文详解核心技术、性能评测及Ollama/vLLM等四种本地部署方案。

阅读全文 →

深度解读

2026年5月13日·8 分钟

微软Tutel：MoE模型加速库深度解析，支持FP4/FP8低精度计算

深度解析微软开源Tutel MoE优化库，支持FP8、NVFP4、MXFP4多精度计算，适配DeepSeek、Kimi-K2、Qwen3等主流MoE模型，解决All-to-All通信瓶颈与显存管理难题。

阅读全文 →

Kimi K2官方验证工具K2-Vendor-Verifier：一键检测API供应商模型精度

科技前沿

2026年5月13日·6 分钟

Kimi K2官方验证工具K2-Vendor-Verifier：一键检测API供应商模型精度

Moonshot AI开源K2-Vendor-Verifier工具，专门验证第三方Kimi K2 API供应商的推理精度。本文详解该工具的核心功能、技术实现思路及对开发者选型的实际价值，帮助你避开过度量化、模型替换等API市场隐患。

阅读全文 →