#LLM推理

共 49 篇相关文章

2026年6月6日·9 分钟

vLLM深度解析：PagedAttention如何实现高吞吐量LLM推理

深入解析vLLM高吞吐量LLM推理引擎的核心技术，包括PagedAttention内存管理、连续批处理机制、分布式部署方案，以及与TensorRT-LLM等方案的对比和适用场景建议。

阅读全文 →

2026年6月4日·11 分钟

Google混合推理登陆iOS：端侧AI跨平台部署全解析

Google混合推理正式支持iOS平台，Android端新增Gemma 4模型，Chrome本地Web推理即将全面开放。深入解析混合推理技术原理、跨平台优势及开发者机遇。

阅读全文 →

联想ThinkBook 16+ R7-H255评测：4799元AI编程办公本值得买吗

产品体验

2026年6月3日·2 分钟

联想ThinkBook 16+ R7-H255评测：4799元AI编程办公本值得买吗

联想ThinkBook 16+搭载AMD R7-H255处理器，售价4799元，定位AI编程与商务办公。本文从处理器性能、价格定位、适用场景等方面分析这款16英寸高性能笔记本的实际表现与购买建议。

阅读全文 →

教程攻略

2026年6月2日·6 分钟

Spring AI Alibaba入门：Java开发者接入大模型的最佳实践

深入解析Spring AI Alibaba框架的定位与价值，通过JDBC类比帮助Java开发者理解如何将大模型能力集成到现有微服务架构中，涵盖框架选型对比与企业级应用场景。

阅读全文 →

产品体验

2026年6月2日·7 分钟

AnySearch：专为AI Agent设计的搜索插件，省Token提效果

AnySearch是一款面向AI Agent的搜索插件，通过提供结构化高质量数据，帮助Agent过滤互联网垃圾信息，实测Token消耗降低3倍，答案质量显著提升。支持主流Agent平台免费接入。

阅读全文 →

科技前沿

2026年5月31日·5 分钟

OpenAI语音黑客马拉松：6小时极限开发4个实时语音AI项目

OpenAI举办Voice Hack Night黑客马拉松，参赛团队6小时内构建实时语音代理项目，4个项目进入决赛。深度解析实时语音AI的技术挑战、落地场景与开发者生态趋势。

阅读全文 →

行业洞察

2026年5月30日·5 分钟

SGLang进军金融业：AI推理基础设施如何重塑华尔街

SGLang联合Crusoe AI、Cloudflare等举办金融AI推理活动，探讨LLM推理框架在交易、风控、合规等场景的落地应用，解析AI推理基础设施垂直化趋势及金融行业部署前景。

阅读全文 →

教程攻略

2026年5月30日·6 分钟

AMD GPU部署PD分离式SGLang多节点推理集群教程

详解如何在AMD GPU上部署PD分离式SGLang推理集群，通过单一配置文件实现Prefill-Decode解耦的多节点部署，提升大模型推理吞吐量与延迟表现，附架构原理与适用场景分析。

阅读全文 →

SGLang v0.5.12.post1发布：DeepSeek V4稳定性修复与Blackwell适配

科技前沿

2026年5月30日·6 分钟

SGLang v0.5.12.post1发布：DeepSeek V4稳定性修复与Blackwell适配

SGLang v0.5.12.post1稳定性补丁详解，包含12项关键修复，涵盖DeepSeek V4乱码与崩溃问题、NIXL PD分离式推理逻辑修复、Blackwell B300架构适配及冷启动性能优化。

阅读全文 →

Cloudflare向SGLang贡献KV Cache与Mooncake关键修复

科技前沿

2026年5月30日·5 分钟

Cloudflare向SGLang贡献KV Cache与Mooncake关键修复

Cloudflare向SGLang上游提交decode KV cache offload和Mooncake recovery两项关键修复，解决高并发场景下Kimi K2.6模型乱码输出问题，并实现分布式推理节点自动故障恢复，提升生产环境稳定性。

阅读全文 →

SGLang举办Agent Loops主题Office Hour，聚焦智能体循环架构优化

科技前沿

2026年5月30日·5 分钟

SGLang举办Agent Loops主题Office Hour，聚焦智能体循环架构优化

SGLang团队举办Agent Loops主题Office Hour，深入探讨智能体循环调用的推理优化方案，涵盖KV Cache复用、低延迟多轮对话及工具调用等关键技术，助力AI Agent开发者提升推理性能。

阅读全文 →

科技前沿

2026年5月30日·6 分钟

LFM2.5-8B-A1B：1.5B激活参数实现4倍体量效果的MoE模型

Liquid AI发布LFM2.5-8B-A1B模型，采用MoE架构，8B总参数仅激活1.5B，在工具调用场景中媲美6B级模型表现。支持128K上下文、本地部署、多语言，SGLang即时支持。

阅读全文 →

行业洞察

2026年5月30日·8 分钟

AI全自动编排实践：软件生产成本如何被彻底打穿

深度解析AI全自动软件编排的实践方法：从Claude Code工作流到并行编排策略，探讨MiniMax M1等小参数模型如何让软件生产边际成本趋近于零，以及普通人如何抓住这波AI编程红利。

阅读全文 →

行业洞察

2026年5月28日·6 分钟

企业Agent落地指南：从数字化地基到智能化飞跃

企业如何推动Agent智能体真正落地？本文从数字化地基、AI战略规划、建设逻辑转变到实施路径，系统梳理企业Agent落地的关键方法论，帮助企业避免在沙滩上盖AI大厦。

阅读全文 →

教程攻略

2026年5月28日·8 分钟

程序员转型Agent开发：四阶段学习路线详解

系统梳理程序员转型AI Agent开发的四阶段学习路线，涵盖核心理论、ReAct等经典范式、Prompt工程调优及实战项目，帮助有编程基础的开发者高效掌握Agent开发技能。

阅读全文 →

行业洞察

2026年5月28日·6 分钟

NVIDIA Blackwell创下金融LLM推理STAC-AI新纪录

NVIDIA Blackwell架构GPU在金融行业权威基准STAC-AI中刷新LLM推理性能纪录。深入解析Blackwell架构优势、TensorRT-LLM软硬件协同优化策略，以及大语言模型在金融交易情绪分析、风控合规等场景的应用前景。

阅读全文 →

教程攻略

2026年5月28日·8 分钟

企业智能体四层架构设计与PDCA持续优化实战指南

深入解析企业AI智能体的四层架构设计（用户层、网关层、Agent服务层、能力层），结合PDCA循环优化方法论与人工+自动双轨评估体系，帮助企业构建可落地、可迭代的生产级Agent系统。

阅读全文 →

DLSS 4.5深度集成UE5与多语言AI角色：NVIDIA RTX游戏开发重大更新

产品体验

2026年5月28日·7 分钟

DLSS 4.5深度集成UE5与多语言AI角色：NVIDIA RTX游戏开发重大更新

NVIDIA发布RTX技术重大更新，DLSS 4.5深度集成虚幻引擎5带来帧生成性能飞跃，多语言AI角色支持动态对话与实时语音合成，全面革新游戏开发流程与玩家交互体验。

阅读全文 →

教程攻略

2026年5月27日·5 分钟

Agent平台基石：Session Event的抽象、传输与存储实战

深入解析生产级Agent平台中Session Event的工程设计：如何通过Universal Event统一多运行时事件格式，设计三方架构下的流式传输容错机制，以及存储方案从JSONB到表拆分的演进踩坑经验。涵盖APO、Skills抽取、模型微调等数据价值应用。

阅读全文 →

行业洞察

2026年5月25日·6 分钟

2025年Go开发者调查结果：满意度、使用场景与挑战深度解读

2025年Go开发者调查结果深度解读，涵盖开发者满意度、云原生与AI使用场景、错误处理与泛型挑战、IDE工具选择等核心发现，帮助你全面了解Go语言生态现状与发展趋势。

阅读全文 →