共 18 篇相关文章
产品体验实测Manus AI Agent在DeepSeek技术路线下的实际表现,分析其任务执行流程、中文推理能力、表现亮点与不足,探讨国产大模型在Agent应用场景中的潜力与优化方向。
科技前沿DeepSeek-V3.2版本发布,编程、数学和Agent开发能力追平Gemini 3.0 Pro,刷新开源模型SOTA记录。本文详解V3.2性能提升亮点、适用场景及部署建议。
教程攻略详解llama.cpp如何启用MTP多Token预测加速技术,涵盖CUDA环境配置、桌面端设置、模型选择及实测性能数据,Qwen3 27B实测近60 Token/s。
行业洞察SGLang联合Crusoe AI、Cloudflare等举办金融AI推理活动,探讨LLM推理框架在交易、风控、合规等场景的落地应用,解析AI推理基础设施垂直化趋势及金融行业部署前景。
教程攻略详解如何在AMD GPU上部署PD分离式SGLang推理集群,通过单一配置文件实现Prefill-Decode解耦的多节点部署,提升大模型推理吞吐量与延迟表现,附架构原理与适用场景分析。
科技前沿SGLang v0.5.12.post1稳定性补丁详解,包含12项关键修复,涵盖DeepSeek V4乱码与崩溃问题、NIXL PD分离式推理逻辑修复、Blackwell B300架构适配及冷启动性能优化。
科技前沿深度解析StepFun AI发布的Step 3.7 Flash,一款198B参数稀疏MoE视觉语言模型,支持256K上下文与三级推理,在多模态理解、AI编程和Agent工具编排方面表现顶尖,已获SGLang首日支持。
前沿研究深入解析Humanize框架如何通过Agent Loop将LLM Token转化为工程生产力。涵盖KDA自动编写CUDA内核获竞赛冠军、虚拟硬件优化、研究成本削减50%三大实战案例,探讨Agent-Centric研究的未来方向。
科技前沿Cloudflare向SGLang上游提交decode KV cache offload和Mooncake recovery两项关键修复,解决高并发场景下Kimi K2.6模型乱码输出问题,并实现分布式推理节点自动故障恢复,提升生产环境稳定性。
行业洞察AMD Instinct MI355X通过SGLang+MoRI全栈优化,在DeepSeek-R1分离式推理中实现TCO比NVIDIA B200低5%,每GPU吞吐量高1.25倍。深度解析MoRI量化通信、KV Cache优化及推测解码等核心技术突破。
科技前沿SGLang团队举办Agent Loops主题Office Hour,深入探讨智能体循环调用的推理优化方案,涵盖KV Cache复用、低延迟多轮对话及工具调用等关键技术,助力AI Agent开发者提升推理性能。
科技前沿Liquid AI发布LFM2.5-8B-A1B模型,采用MoE架构,8B总参数仅激活1.5B,在工具调用场景中媲美6B级模型表现。支持128K上下文、本地部署、多语言,SGLang即时支持。
行业洞察深度解析大模型应用工程师、研发工程师、算法工程师三大核心岗位的技术要求、薪资门槛与发展前景,涵盖RAG、模型微调、推理部署等关键技术栈,助你制定清晰的AI职业规划路径。
教程攻略系统拆解大模型命名规则,解释32B参数量、AWQ/GGUF量化格式的含义,提供4-bit量化显存估算公式与速查表,涵盖MOE模型显存陷阱、IMatrix量化推荐及按显存档位的模型选择建议。
教程攻略详解vLLM和SGLang本地部署全流程,对比LM Studio性能差距,通过Docker+AI助手三步完成部署。涵盖SGLang与vLLM选型建议、5090显存优化、Qwen3模型推荐及Cherry Studio接入方法。
教程攻略OpenAI正式开源GPT-OSS系列模型(20B/120B),采用MOE架构+FP4混合精度,单卡4090即可运行O3级推理模型。本文详解核心技术、性能评测及Ollama/vLLM等四种本地部署方案。
深度解读深度解析微软开源Tutel MoE优化库,支持FP8、NVFP4、MXFP4多精度计算,适配DeepSeek、Kimi-K2、Qwen3等主流MoE模型,解决All-to-All通信瓶颈与显存管理难题。
科技前沿Moonshot AI开源K2-Vendor-Verifier工具,专门验证第三方Kimi K2 API供应商的推理精度。本文详解该工具的核心功能、技术实现思路及对开发者选型的实际价值,帮助你避开过度量化、模型替换等API市场隐患。