#分布式推理

共 13 篇相关文章

2026年6月6日·9 分钟

vLLM深度解析：PagedAttention如何实现高吞吐量LLM推理

深入解析vLLM高吞吐量LLM推理引擎的核心技术，包括PagedAttention内存管理、连续批处理机制、分布式部署方案，以及与TensorRT-LLM等方案的对比和适用场景建议。

阅读全文 →

行业洞察

2026年6月2日·8 分钟

阿里3800亿AI投资：Agent时代的云基建全栈升级解读

阿里宣布未来三年投入3800亿建设AI云基础设施，百炼平台年度经常性收入达80亿元，AI收入连续11个季度三位数增长。本文深度解析阿里云从含光芯片到千问云入口的全栈Agent升级战略。

阅读全文 →

SGLang v0.5.12.post1发布：DeepSeek V4稳定性修复与Blackwell适配

科技前沿

2026年5月30日·6 分钟

SGLang v0.5.12.post1发布：DeepSeek V4稳定性修复与Blackwell适配

SGLang v0.5.12.post1稳定性补丁详解，包含12项关键修复，涵盖DeepSeek V4乱码与崩溃问题、NIXL PD分离式推理逻辑修复、Blackwell B300架构适配及冷启动性能优化。

阅读全文 →

Cloudflare向SGLang贡献KV Cache与Mooncake关键修复

科技前沿

2026年5月30日·5 分钟

Cloudflare向SGLang贡献KV Cache与Mooncake关键修复

Cloudflare向SGLang上游提交decode KV cache offload和Mooncake recovery两项关键修复，解决高并发场景下Kimi K2.6模型乱码输出问题，并实现分布式推理节点自动故障恢复，提升生产环境稳定性。

阅读全文 →

AMD MI355X击败B200：DeepSeek-R1推理TCO低5%的全栈优化解析

行业洞察

2026年5月30日·7 分钟

AMD MI355X击败B200：DeepSeek-R1推理TCO低5%的全栈优化解析

AMD Instinct MI355X通过SGLang+MoRI全栈优化，在DeepSeek-R1分离式推理中实现TCO比NVIDIA B200低5%，每GPU吞吐量高1.25倍。深度解析MoRI量化通信、KV Cache优化及推测解码等核心技术突破。

阅读全文 →

SGLang举办Agent Loops主题Office Hour，聚焦智能体循环架构优化

科技前沿

2026年5月30日·5 分钟

SGLang举办Agent Loops主题Office Hour，聚焦智能体循环架构优化

SGLang团队举办Agent Loops主题Office Hour，深入探讨智能体循环调用的推理优化方案，涵盖KV Cache复用、低延迟多轮对话及工具调用等关键技术，助力AI Agent开发者提升推理性能。

阅读全文 →

产品体验

2026年5月27日·7 分钟

小米mimo-v2-tts踩坑实录：文档矛盾、标签误读、音频串流三大BUG

深度复盘小米mimo-v2-tts语音合成模型的实际使用体验，揭示文档中括号与圆括号标注矛盾、音频标签内容被错误朗读、后端请求串流返回无关音频三大严重问题，并给出开发者避坑建议。

阅读全文 →

前沿研究

2026年5月26日·5 分钟

Cursor Composer 2分布式RL训练技术解析

深度解析Cursor如何通过分布式强化学习训练Composer 2模型，涵盖异步流水线设计、MoE数值对齐、全球权重同步、在线离线RL协同等核心技术细节，揭示AI编程工具从应用到基础模型的转型路径。

阅读全文 →

深度解读

2026年5月17日·8 分钟

NVIDIA Dynamo多轮智能体交互：流式Token与工具调用深度集成

深入解析NVIDIA Dynamo框架对多轮智能体交互的支持，涵盖流式Token输出、工具调用结构化处理、状态管理及与MoE架构协同，助力开发者构建生产级AI Agent系统。

阅读全文 →

DeepSeek-V4-Pro API限时75折：百万上下文+主流工具集成全解析

科技前沿

2026年5月12日·7 分钟

DeepSeek-V4-Pro API限时75折：百万上下文+主流工具集成全解析

DeepSeek-V4-Pro API即日起至2026年5月5日享受75折优惠，支持100万token超长上下文窗口，兼容Claude Code、OpenCode等主流开发工具。本文详解定价策略、技术亮点及开发者接入指南。

阅读全文 →

产品体验

2026年5月7日·8 分钟

GitHub 8200星LLM资源库：覆盖训练推理Agent全链路

深度解析GitHub万星项目awesome-LLM-resources，涵盖LLM数据处理、模型训练、推理优化、Agent开发、多模态生成等全生命周期资源，中文友好，适合各阶段开发者快速定位所需工具与教程。

阅读全文 →

产品体验

2026年5月5日·10 分钟

Cube Studio深度解析：腾讯开源一站式MLOps平台实战指南

深度解析腾讯开源AI平台Cube Studio的架构设计与核心能力，涵盖大模型训练微调、vLLM推理部署、分布式训练框架生态、昇腾国产化适配及VGPU算力管理，帮助企业快速构建私有化MLOps全流程。

阅读全文 →

产品体验

2026年5月5日·4 分钟

Cube Studio：腾讯开源一站式云原生AI平台深度解析

深度解析腾讯音乐开源的Cube Studio云原生AI平台，涵盖MLOps全流程、大模型训练推理、分布式训练框架支持、VGPU虚拟化及国产化适配等核心能力，帮助企业高效构建AI基础设施。

阅读全文 →