Hermes + Qwen3.6 本地部署教程：零成本搭建私有AI Agent

为什么选择 Hermes + Qwen3.6 组合？

现在各种大模型的订阅费用越来越贵，不少人每月要花好几百买Token额度。其实只要你有一张还不错的显卡，完全可以在本地跑一套 Hermes + Qwen3.6 的AI Agent系统——零月费、无限Token、数据全在自己手里。

这套组合的核心优势：

Qwen3.6（通义千问3.6） 是目前最强的开源大模型之一，中文理解、逻辑推理、代码生成都很能打
Hermes Agent 提供了完整的Agent框架，支持定时任务、多平台对接（Telegram / Discord / 微信等）
两者搭配后，你可以用手机随时随地调用家里电脑上的本地模型，执行各种自动化任务

关于 Qwen3.6 的技术背景：Qwen3.6（通义千问3.6）是阿里巴巴达摩院推出的开源大语言模型系列，采用了 Transformer 架构并针对中文语料进行了深度优化。与 GPT 系列不同，Qwen 系列在训练数据中加入了大量中文互联网语料、代码库和学术文献，使其在中文理解和生成任务上具备显著优势。27B 参数版本在 MMLU、HumanEval 等主流基准测试中表现接近部分商业模型，同时支持最长 128K 的上下文窗口，适合处理长文档分析任务。

关于 Hermes Agent 框架：Hermes Agent 是一个面向个人和小团队的开源 AI Agent 编排框架，其设计理念借鉴了 LangChain 和 AutoGPT 的架构思想，但更注重轻量化和即开即用。Agent 框架的核心价值在于将大语言模型从单纯的「对话工具」升级为能够感知环境、规划步骤、调用工具并执行任务的「自主代理」。Hermes 通过标准化的 OpenAI 兼容 API 接口与底层模型通信，这意味着它可以无缝切换本地模型（如 llama.cpp 提供的服务）和云端模型（如 OpenAI、Anthropic），用户无需修改上层业务逻辑即可完成模型替换。

实测在24GB显存的显卡上跑Qwen3.6 27B模型，未经优化就能达到 每秒约40个Token 的生成速度，优化后可以到50-60 Token/s，日常使用完全没压力。

Token/s 速度参考：对于中文内容，1个Token大约对应0.5-1.5个汉字；人类正常阅读速度约为每分钟500-800个汉字，换算成Token约为每秒8-15个Token。因此，40 Token/s 的生成速度已经远超人类阅读速度，用户几乎感受不到等待。影响 Token 生成速度的主要因素包括显存带宽（而非显存容量）、量化精度、批处理大小以及 KV Cache 命中率。24GB 显存的 RTX 4090/3090 等显卡拥有较高的显存带宽，是目前消费级本地推理的最优选择。

部署环境准备

安装WSL Linux子系统

如果你用的是Windows系统，第一步需要安装WSL（Windows Subsystem for Linux）。WSL 是微软在 Windows 10/11 中内置的 Linux 兼容层，允许用户直接在 Windows 环境中运行 Linux 二进制文件，无需虚拟机或双系统。WSL2 采用了真实的 Linux 内核（通过 Hyper-V 轻量级虚拟机实现），相比 WSL1 在文件系统性能和系统调用兼容性上有大幅提升。对于 AI 推理场景，微软与 NVIDIA 合作实现了 GPU 直通功能，使 WSL2 内的程序可以直接调用宿主机的 NVIDIA 显卡进行 CUDA 计算，性能损耗极小，基本接近原生 Linux 环境。

打开PowerShell，以管理员身份运行，输入一键安装命令部署Ubuntu 24.04系统。

安装依赖环境

安装过程需要一些时间，完成后系统会要求重启电脑。重启前记得收藏好本教程页面，免得重启后找不到。重启完成后继续安装Ubuntu 24.04版本，设置好用户名和密码就行。

安装成功后，在Windows终端的下拉箭头中就能看到Ubuntu系统选项，点击即可进入Linux环境。

验证显卡直通与安装依赖

进入Linux系统后，先确认NVIDIA显卡是否成功直通到WSL环境。运行 nvidia-smi 命令检查显卡是否被正确识别。

如果报错，多半是显卡驱动版本太旧。去NVIDIA官网下载对应型号的最新驱动即可，注意区分台式机和笔记本版本。驱动更新完成后，再安装Python和pip等依赖环境。

模型下载与启动

安装CUDA工具包

考虑到不同用户的显存大小差异，推荐使用 llama.cpp 方案而非vLLM或DeepSpeed，稳定性更好，对显存也更友好。

llama.cpp 技术原理：llama.cpp 是由 Georgi Gerganov 开发的纯 C/C++ 推理框架，最初为在 MacBook 上运行 LLaMA 模型而设计，后逐渐演变为支持几乎所有主流开源模型的通用推理引擎。其核心技术是 GGUF 量化格式，通过将模型权重从 FP32/FP16 压缩为 INT4、INT8 等低精度格式，可将模型体积缩减 50%-75%，同时保持 90% 以上的模型性能。相比 vLLM 和 DeepSpeed，llama.cpp 对硬件要求更低，无需复杂的分布式配置，单张消费级显卡即可流畅运行，是个人用户本地部署的首选方案。

安装过程中如果报错，通常是缺少CUDA工具包，需要先装一个约2GB的CUDA toolkit，然后设置路径并重新编译，编译大概需要5分钟。

模型安装过程

根据显存选择合适的模型规格

模型选择取决于你的显存大小，下面是推荐方案：

显存大小	推荐模型	模型大小
24GB	Qwen3.6 27B	~17GB
12-16GB	Qwen3.5 9B	较小
8GB	Qwen3.5 4B	更小
4-6GB	Qwen3.5 0.8B/2B	最小

模型体积远小于参数量对应的理论大小，正是得益于 GGUF 量化压缩技术。以 27B 模型为例，FP16 精度下原始体积约 54GB，经过 INT4 量化后压缩至约 17GB，显存占用也随之大幅降低。

国内用户如果无法直接访问HuggingFace，可以切换到ModelScope或国内镜像站下载。以27B模型为例，100Mbps的下载速度下大约2分钟就能下完。

启动本地模型服务

下载完成后，通过命令启动模型服务。如果你用的模型和教程不同，一定要替换命令中的模型名称。启动成功后，浏览器访问 localhost:8080 就能看到聊天界面。

模型默认开启深度思考模式（类似CoT推理），如果想要更快的响应速度，可以 Ctrl+C 停止服务后用关闭深度思考的命令重新启动。

关于 CoT 推理与深度思考模式：CoT（Chain-of-Thought