#推理框架

共 118 篇相关文章

行业洞察

2026年5月30日·5 分钟

SGLang进军金融业：AI推理基础设施如何重塑华尔街

SGLang联合Crusoe AI、Cloudflare等举办金融AI推理活动，探讨LLM推理框架在交易、风控、合规等场景的落地应用，解析AI推理基础设施垂直化趋势及金融行业部署前景。

阅读全文 →

教程攻略

2026年5月30日·6 分钟

AMD GPU部署PD分离式SGLang多节点推理集群教程

详解如何在AMD GPU上部署PD分离式SGLang推理集群，通过单一配置文件实现Prefill-Decode解耦的多节点部署，提升大模型推理吞吐量与延迟表现，附架构原理与适用场景分析。

阅读全文 →

SGLang v0.5.12.post1发布：DeepSeek V4稳定性修复与Blackwell适配

科技前沿

2026年5月30日·6 分钟

SGLang v0.5.12.post1发布：DeepSeek V4稳定性修复与Blackwell适配

SGLang v0.5.12.post1稳定性补丁详解，包含12项关键修复，涵盖DeepSeek V4乱码与崩溃问题、NIXL PD分离式推理逻辑修复、Blackwell B300架构适配及冷启动性能优化。

阅读全文 →

科技前沿

2026年5月30日·7 分钟

Step 3.7 Flash：198B稀疏MoE多模态模型深度解析

深度解析StepFun AI发布的Step 3.7 Flash，一款198B参数稀疏MoE视觉语言模型，支持256K上下文与三级推理，在多模态理解、AI编程和Agent工具编排方面表现顶尖，已获SGLang首日支持。

阅读全文 →

前沿研究

2026年5月30日·7 分钟

Agent Loops实战：从CUDA内核到自动化研究的Token生产力转化

深入解析Humanize框架如何通过Agent Loop将LLM Token转化为工程生产力。涵盖KDA自动编写CUDA内核获竞赛冠军、虚拟硬件优化、研究成本削减50%三大实战案例，探讨Agent-Centric研究的未来方向。

阅读全文 →

Cloudflare向SGLang贡献KV Cache与Mooncake关键修复

科技前沿

2026年5月30日·5 分钟

Cloudflare向SGLang贡献KV Cache与Mooncake关键修复

Cloudflare向SGLang上游提交decode KV cache offload和Mooncake recovery两项关键修复，解决高并发场景下Kimi K2.6模型乱码输出问题，并实现分布式推理节点自动故障恢复，提升生产环境稳定性。

阅读全文 →

AMD MI355X击败B200：DeepSeek-R1推理TCO低5%的全栈优化解析

行业洞察

2026年5月30日·7 分钟

AMD MI355X击败B200：DeepSeek-R1推理TCO低5%的全栈优化解析

AMD Instinct MI355X通过SGLang+MoRI全栈优化，在DeepSeek-R1分离式推理中实现TCO比NVIDIA B200低5%，每GPU吞吐量高1.25倍。深度解析MoRI量化通信、KV Cache优化及推测解码等核心技术突破。

阅读全文 →

SGLang举办Agent Loops主题Office Hour，聚焦智能体循环架构优化

科技前沿

2026年5月30日·5 分钟

SGLang举办Agent Loops主题Office Hour，聚焦智能体循环架构优化

SGLang团队举办Agent Loops主题Office Hour，深入探讨智能体循环调用的推理优化方案，涵盖KV Cache复用、低延迟多轮对话及工具调用等关键技术，助力AI Agent开发者提升推理性能。

阅读全文 →

科技前沿

2026年5月30日·6 分钟

LFM2.5-8B-A1B：1.5B激活参数实现4倍体量效果的MoE模型

Liquid AI发布LFM2.5-8B-A1B模型，采用MoE架构，8B总参数仅激活1.5B，在工具调用场景中媲美6B级模型表现。支持128K上下文、本地部署、多语言，SGLang即时支持。

阅读全文 →

行业洞察

2026年5月29日·9 分钟

大模型三大岗位深度解析：门槛、技术栈与职业前景

深度解析大模型应用工程师、研发工程师、算法工程师三大核心岗位的技术要求、薪资门槛与发展前景，涵盖RAG、模型微调、推理部署等关键技术栈，助你制定清晰的AI职业规划路径。

阅读全文 →

教程攻略

2026年5月29日·8 分钟

Spring AI框架全攻略：Java工程师AI应用开发完整路径

系统讲解Spring AI框架，涵盖大模型接入、提示词工程、RAG知识库、AI Agent五种模式等核心技术，通过三大企业级实战项目，帮助Java工程师快速掌握AI应用开发的工程化落地能力。

阅读全文 →

Claude Agent SDK+LiteLLM+本地大模型：零成本搭建智能体平台

教程攻略

2026年5月28日·9 分钟

Claude Agent SDK+LiteLLM+本地大模型：零成本搭建智能体平台

详解如何通过LiteLLM Proxy将Claude Agent SDK的API请求重定向到本地大模型，在保留完整Agent框架能力的同时将推理成本降为零。含架构设计、实战演示与企业级部署方案。

阅读全文 →

NVIDIA Dynamo Snapshot：GPU推理冷启动问题的快照恢复方案

行业洞察

2026年5月28日·6 分钟

NVIDIA Dynamo Snapshot：GPU推理冷启动问题的快照恢复方案

深入解析NVIDIA Dynamo Snapshot如何通过GPU状态快照与恢复机制，将大模型推理服务的冷启动时间从分钟级降至秒级，涵盖Kubernetes集成、技术实现挑战及弹性推理等实际应用场景。

阅读全文 →

产品体验

2026年5月28日·6 分钟

Notion MCP挑战赛获奖作品解析：AI Agent重新定义笔记工具

深度解析Notion MCP开发者挑战赛三个获奖作品：Note Runway、Deaf Notion和Relay，了解AI Agent如何通过MCP协议与Notion深度集成，将笔记工具升级为AI知识中枢。

阅读全文 →

行业洞察

2026年5月28日·6 分钟

NVIDIA Blackwell创下金融LLM推理STAC-AI新纪录

NVIDIA Blackwell架构GPU在金融行业权威基准STAC-AI中刷新LLM推理性能纪录。深入解析Blackwell架构优势、TensorRT-LLM软硬件协同优化策略，以及大语言模型在金融交易情绪分析、风控合规等场景的应用前景。

阅读全文 →

产品体验

2026年5月26日·7 分钟

AI API中转平台推荐：一个密钥调用所有主流大模型

详解AI API中转平台的核心功能与使用体验，一个密钥即可调用GPT、Claude等主流大模型，比官方价格便宜20%。涵盖注册流程、Cursor配置方法、费用追踪及数据安全注意事项。

阅读全文 →

产品体验

Tollecode：本地优先AI编程代理，代码不出本机的智能助手

2026年5月25日·5 分钟

Tollecode：本地优先AI编程代理，代码不出本机的智能助手

Tollecode是一款本地优先的AI编程代理助手，支持文件操作、Shell命令执行和子代理调度。代码无需上传云端，开发者拥有完全控制权，适合注重数据隐私和执行效率的工程师使用。

阅读全文 →

行业洞察

2026年5月25日·4 分钟

NVIDIA验证Agent技能框架：AI代理能力治理新标准

NVIDIA发布验证代理技能框架，为AI Agent提供系统化能力治理方案。深入解析该框架如何通过技能认证、权限控制与MCP协议集成，解决企业级AI代理部署中的安全性与可控性难题。

阅读全文 →

深度解读

2026年5月22日·6 分钟

AI Agent架构详解：核心组件、四大框架与思维链技术

深入解析AI Agent智能体的核心架构，涵盖AutoGPT、BabyAGI、HuggingGPT、LlamaIndex四大经典框架，以及CoT思维链技术原理。从控制端、感知端到行动端，全面理解大模型如何进化为能调用工具、分解任务的智能助手。

阅读全文 →

教程攻略

2026年5月22日·6 分钟

Docker Model Runner使用教程：一条命令本地运行AI模型

详解Docker Model Runner的安装配置与实战用法，通过Docker Compose集成本地AI模型，兼容OpenAI API接口，实现零配置本地部署LLM大模型，附完整聊天应用开发示例。

阅读全文 →