共 118 篇相关文章
行业洞察SGLang联合Crusoe AI、Cloudflare等举办金融AI推理活动,探讨LLM推理框架在交易、风控、合规等场景的落地应用,解析AI推理基础设施垂直化趋势及金融行业部署前景。
教程攻略详解如何在AMD GPU上部署PD分离式SGLang推理集群,通过单一配置文件实现Prefill-Decode解耦的多节点部署,提升大模型推理吞吐量与延迟表现,附架构原理与适用场景分析。
科技前沿SGLang v0.5.12.post1稳定性补丁详解,包含12项关键修复,涵盖DeepSeek V4乱码与崩溃问题、NIXL PD分离式推理逻辑修复、Blackwell B300架构适配及冷启动性能优化。
科技前沿深度解析StepFun AI发布的Step 3.7 Flash,一款198B参数稀疏MoE视觉语言模型,支持256K上下文与三级推理,在多模态理解、AI编程和Agent工具编排方面表现顶尖,已获SGLang首日支持。
前沿研究深入解析Humanize框架如何通过Agent Loop将LLM Token转化为工程生产力。涵盖KDA自动编写CUDA内核获竞赛冠军、虚拟硬件优化、研究成本削减50%三大实战案例,探讨Agent-Centric研究的未来方向。
科技前沿Cloudflare向SGLang上游提交decode KV cache offload和Mooncake recovery两项关键修复,解决高并发场景下Kimi K2.6模型乱码输出问题,并实现分布式推理节点自动故障恢复,提升生产环境稳定性。
行业洞察AMD Instinct MI355X通过SGLang+MoRI全栈优化,在DeepSeek-R1分离式推理中实现TCO比NVIDIA B200低5%,每GPU吞吐量高1.25倍。深度解析MoRI量化通信、KV Cache优化及推测解码等核心技术突破。
科技前沿SGLang团队举办Agent Loops主题Office Hour,深入探讨智能体循环调用的推理优化方案,涵盖KV Cache复用、低延迟多轮对话及工具调用等关键技术,助力AI Agent开发者提升推理性能。
科技前沿Liquid AI发布LFM2.5-8B-A1B模型,采用MoE架构,8B总参数仅激活1.5B,在工具调用场景中媲美6B级模型表现。支持128K上下文、本地部署、多语言,SGLang即时支持。
行业洞察深度解析大模型应用工程师、研发工程师、算法工程师三大核心岗位的技术要求、薪资门槛与发展前景,涵盖RAG、模型微调、推理部署等关键技术栈,助你制定清晰的AI职业规划路径。
教程攻略系统讲解Spring AI框架,涵盖大模型接入、提示词工程、RAG知识库、AI Agent五种模式等核心技术,通过三大企业级实战项目,帮助Java工程师快速掌握AI应用开发的工程化落地能力。
教程攻略详解如何通过LiteLLM Proxy将Claude Agent SDK的API请求重定向到本地大模型,在保留完整Agent框架能力的同时将推理成本降为零。含架构设计、实战演示与企业级部署方案。
行业洞察深入解析NVIDIA Dynamo Snapshot如何通过GPU状态快照与恢复机制,将大模型推理服务的冷启动时间从分钟级降至秒级,涵盖Kubernetes集成、技术实现挑战及弹性推理等实际应用场景。
产品体验深度解析Notion MCP开发者挑战赛三个获奖作品:Note Runway、Deaf Notion和Relay,了解AI Agent如何通过MCP协议与Notion深度集成,将笔记工具升级为AI知识中枢。
行业洞察NVIDIA Blackwell架构GPU在金融行业权威基准STAC-AI中刷新LLM推理性能纪录。深入解析Blackwell架构优势、TensorRT-LLM软硬件协同优化策略,以及大语言模型在金融交易情绪分析、风控合规等场景的应用前景。
产品体验详解AI API中转平台的核心功能与使用体验,一个密钥即可调用GPT、Claude等主流大模型,比官方价格便宜20%。涵盖注册流程、Cursor配置方法、费用追踪及数据安全注意事项。
Tollecode:本地优先AI编程代理,代码不出本机的智能助手
Tollecode是一款本地优先的AI编程代理助手,支持文件操作、Shell命令执行和子代理调度。代码无需上传云端,开发者拥有完全控制权,适合注重数据隐私和执行效率的工程师使用。
行业洞察NVIDIA发布验证代理技能框架,为AI Agent提供系统化能力治理方案。深入解析该框架如何通过技能认证、权限控制与MCP协议集成,解决企业级AI代理部署中的安全性与可控性难题。
深度解读深入解析AI Agent智能体的核心架构,涵盖AutoGPT、BabyAGI、HuggingGPT、LlamaIndex四大经典框架,以及CoT思维链技术原理。从控制端、感知端到行动端,全面理解大模型如何进化为能调用工具、分解任务的智能助手。
教程攻略详解Docker Model Runner的安装配置与实战用法,通过Docker Compose集成本地AI模型,兼容OpenAI API接口,实现零配置本地部署LLM大模型,附完整聊天应用开发示例。