#vLLM

共 120 篇相关文章

2026年6月6日·9 分钟

vLLM深度解析：PagedAttention如何实现高吞吐量LLM推理

深入解析vLLM高吞吐量LLM推理引擎的核心技术，包括PagedAttention内存管理、连续批处理机制、分布式部署方案，以及与TensorRT-LLM等方案的对比和适用场景建议。

阅读全文 →

2026年6月4日·7 分钟

AI Agent母亲节吐槽：当智能助手也想放假

一条AI Agent的母亲节幽默吐槽引发热议：别再让我帮你买花了！从拟人化交互到节日经济中的AI角色，探讨AI Agent深度融入日常生活的趋势与思考。

阅读全文 →

2026年6月4日·9 分钟

OpenAI Swarm框架详解：Function Call与Handoff核心机制

深入解析OpenAI Swarm多智能体编排框架的核心思想，详解Function Call工具调用机制和Handoff任务交接原理，涵盖智能体概念、Instruct模型作用及本地化部署实践指南。

阅读全文 →

教程攻略

2026年6月3日·8 分钟

Agent Tuning：训练具备Agent能力的大模型完整指南

深入解析Agent Tuning的原理与实践，包括为什么需要Agent训练、从Prompt到RAG到Agent的技术演进、研发流程与成本评估，帮助中小模型获得顶级Agent能力实现私有化部署。

阅读全文 →

教程攻略

2026年6月3日·7 分钟

Ollama本地部署大模型：三步完成安装到对话

详细介绍如何使用Ollama在本地电脑部署大语言模型，涵盖下载安装、模型选择、一键部署到对话的完整流程，无需编程基础，支持离线运行且完全免费。

阅读全文 →

教程攻略

2026年6月3日·10 分钟

Hermes Agent完全指南：从零搭建自我进化的AI助手

详解Hermes Agent开源AI代理的五大核心支柱：记忆、技能、灵魂、定时任务与自我进化循环。涵盖VPS部署、Telegram配置、安全管理及最佳实践，助你打造越用越强的个人AI助手。

阅读全文 →

产品体验

2026年6月3日·7 分钟

Manus实测：基于DeepSeek技术路线的AI Agent表现如何

实测Manus AI Agent在DeepSeek技术路线下的实际表现，分析其任务执行流程、中文推理能力、表现亮点与不足，探讨国产大模型在Agent应用场景中的潜力与优化方向。

阅读全文 →

科技前沿

2026年6月3日·7 分钟

DeepSeek-V3.2发布：编程与数学能力跻身全球第一梯队

DeepSeek-V3.2版本发布，编程、数学和Agent开发能力追平Gemini 3.0 Pro，刷新开源模型SOTA记录。本文详解V3.2性能提升亮点、适用场景及部署建议。

阅读全文 →

Claude Code接入DeepSeek API教程：7步搭建低成本AI编程助手

教程攻略

2026年6月3日·10 分钟

Claude Code接入DeepSeek API教程：7步搭建低成本AI编程助手

详细图文教程教你将Claude Code后端切换到DeepSeek API，通过ccswitch工具实现7步配置，大幅降低AI编程助手使用成本。涵盖环境搭建、安装验证、常见报错解决方案。

阅读全文 →

产品体验

2026年6月3日·8 分钟

Multica开源平台：统一管理多个AI编程Agent的自托管方案

深入解析Multica开源Agent管理平台，了解如何将Claude Code、Codex等AI编程助手统一协调为团队成员。涵盖自托管部署、架构设计、工作流程及适用场景分析。

阅读全文 →

教程攻略

2026年6月3日·5 分钟

Gemma 4全面解析：Apache 2.0开源的Agent圣体

深度解析Google Gemma 4开源模型系列，涵盖31B、26B MOE、14B/12B三档模型红黑榜评测，提供Windows/Linux/Mac部署方案及MS-Swift微调实战教程，助你精准选型构建本地Agent工作流。

阅读全文 →

行业洞察

2026年6月2日·7 分钟

5种普通人可操作的AI赚钱路径深度解析

详解5种适合普通人的AI变现方式：卖AI产品、代理账号服务、矩阵号引流、轻量付费服务、本地大模型部署。从实操门槛到收益潜力逐一拆解，帮你找到最适合的AI副业赚钱路径。

阅读全文 →

教程攻略

2026年6月2日·6 分钟

Spring AI Alibaba入门：Java开发者接入大模型的最佳实践

深入解析Spring AI Alibaba框架的定位与价值，通过JDBC类比帮助Java开发者理解如何将大模型能力集成到现有微服务架构中，涵盖框架选型对比与企业级应用场景。

阅读全文 →

教程攻略

2026年6月2日·10 分钟

llama.cpp MTP加速部署指南：配置步骤与性能实测

详解llama.cpp如何启用MTP多Token预测加速技术，涵盖CUDA环境配置、桌面端设置、模型选择及实测性能数据，Qwen3 27B实测近60 Token/s。

阅读全文 →

教程攻略

2026年6月2日·11 分钟

Qwen3.5+RAGFlow+Ollama本地AI知识库搭建实战指南

详细教程：使用RAGFlow、Ollama和LM Studio搭建本地RAG知识库，涵盖Docker环境配置、Embedding模型部署、网络踩坑解决方案，实现数据私有化的智能问答系统。

阅读全文 →

产品体验

2026年6月2日·5 分钟

DeepSeek满血版免费无限用？AI聚合平台深度实测与风险分析

深度分析声称可无限免费使用DeepSeek满血版R1模型的AI聚合平台，解析其多模型聚合、官方API直连等卖点，揭示数据安全与可持续性风险，并提供官方API、硅基流动等更稳妥的替代方案。

阅读全文 →

教程攻略

2026年6月2日·4 分钟

AI大模型学习路线：从零到工程师的六个阶段

系统梳理AI大模型工程师学习路线，涵盖Transformer基础、提示词工程、RAG检索增强生成、Agent智能体开发、API调用、微调部署到项目实战六大阶段，帮助开发者高效掌握大模型核心技能。

阅读全文 →

教程攻略

2026年6月1日·10 分钟

Gemini CLI支持任意大模型：EasyLLM CLI开源改造方案详解

深度解析EasyLLM CLI如何改造Gemini CLI，实现支持任意大模型（含本地模型）接入，解决账号门槛、模型锁定、数据安全三大痛点，并提供代码级API集成能力。

阅读全文 →

行业洞察

2026年6月1日·8 分钟

AI账号轮换工具的风险揭秘：灰产背后的安全隐患

深度解析AI额度破解工具的运作模式，揭示账号轮换灰产背后的法律合规风险、数据泄露隐患，并提供API付费、订阅升级等正当替代方案。

阅读全文 →

教程攻略

2026年6月1日·7 分钟

pnpm Monorepo全栈AI工程化实战：搭建多模态对话系统

详解如何用pnpm Monorepo架构搭建全栈AI多模态对话系统，涵盖本地模型集成、图片理解、流式对话等核心功能，提供工程化最佳实践与落地方案。

阅读全文 →