Hermes + Qwen3.6 本地部署教程:零成本搭建私有AI Agent

本地部署Hermes+Qwen3.6 AI Agent系统的完整教程
本文介绍如何利用Hermes Agent框架搭配Qwen3.6开源大模型,在本地显卡上搭建零月费、无限Token的AI Agent系统。文章涵盖WSL Linux子系统安装、显卡直通验证、llama.cpp推理框架部署、根据显存选择合适模型规格等完整流程,实测24GB显存可流畅运行27B模型,生成速度达40-60 Token/s。
为什么选择 Hermes + Qwen3.6 组合?
现在各种大模型的订阅费用越来越贵,不少人每月要花好几百买Token额度。其实只要你有一张还不错的显卡,完全可以在本地跑一套 Hermes + Qwen3.6 的AI Agent系统——零月费、无限Token、数据全在自己手里。
这套组合的核心优势:
- Qwen3.6(通义千问3.6) 是目前最强的开源大模型之一,中文理解、逻辑推理、代码生成都很能打
- Hermes Agent 提供了完整的Agent框架,支持定时任务、多平台对接(Telegram / Discord / 微信等)
- 两者搭配后,你可以用手机随时随地调用家里电脑上的本地模型,执行各种自动化任务
关于 Qwen3.6 的技术背景:Qwen3.6(通义千问3.6)是阿里巴巴达摩院推出的开源大语言模型系列,采用了 Transformer 架构并针对中文语料进行了深度优化。与 GPT 系列不同,Qwen 系列在训练数据中加入了大量中文互联网语料、代码库和学术文献,使其在中文理解和生成任务上具备显著优势。27B 参数版本在 MMLU、HumanEval 等主流基准测试中表现接近部分商业模型,同时支持最长 128K 的上下文窗口,适合处理长文档分析任务。
关于 Hermes Agent 框架:Hermes Agent 是一个面向个人和小团队的开源 AI Agent 编排框架,其设计理念借鉴了 LangChain 和 AutoGPT 的架构思想,但更注重轻量化和即开即用。Agent 框架的核心价值在于将大语言模型从单纯的「对话工具」升级为能够感知环境、规划步骤、调用工具并执行任务的「自主代理」。Hermes 通过标准化的 OpenAI 兼容 API 接口与底层模型通信,这意味着它可以无缝切换本地模型(如 llama.cpp 提供的服务)和云端模型(如 OpenAI、Anthropic),用户无需修改上层业务逻辑即可完成模型替换。
实测在24GB显存的显卡上跑Qwen3.6 27B模型,未经优化就能达到 每秒约40个Token 的生成速度,优化后可以到50-60 Token/s,日常使用完全没压力。
Token/s 速度参考:对于中文内容,1个Token大约对应0.5-1.5个汉字;人类正常阅读速度约为每分钟500-800个汉字,换算成Token约为每秒8-15个Token。因此,40 Token/s 的生成速度已经远超人类阅读速度,用户几乎感受不到等待。影响 Token 生成速度的主要因素包括显存带宽(而非显存容量)、量化精度、批处理大小以及 KV Cache 命中率。24GB 显存的 RTX 4090/3090 等显卡拥有较高的显存带宽,是目前消费级本地推理的最优选择。
部署环境准备
安装WSL Linux子系统
如果你用的是Windows系统,第一步需要安装WSL(Windows Subsystem for Linux)。WSL 是微软在 Windows 10/11 中内置的 Linux 兼容层,允许用户直接在 Windows 环境中运行 Linux 二进制文件,无需虚拟机或双系统。WSL2 采用了真实的 Linux 内核(通过 Hyper-V 轻量级虚拟机实现),相比 WSL1 在文件系统性能和系统调用兼容性上有大幅提升。对于 AI 推理场景,微软与 NVIDIA 合作实现了 GPU 直通功能,使 WSL2 内的程序可以直接调用宿主机的 NVIDIA 显卡进行 CUDA 计算,性能损耗极小,基本接近原生 Linux 环境。
打开PowerShell,以管理员身份运行,输入一键安装命令部署Ubuntu 24.04系统。

安装过程需要一些时间,完成后系统会要求重启电脑。重启前记得收藏好本教程页面,免得重启后找不到。重启完成后继续安装Ubuntu 24.04版本,设置好用户名和密码就行。
安装成功后,在Windows终端的下拉箭头中就能看到Ubuntu系统选项,点击即可进入Linux环境。
验证显卡直通与安装依赖
进入Linux系统后,先确认NVIDIA显卡是否成功直通到WSL环境。运行 nvidia-smi 命令检查显卡是否被正确识别。
如果报错,多半是显卡驱动版本太旧。去NVIDIA官网下载对应型号的最新驱动即可,注意区分台式机和笔记本版本。驱动更新完成后,再安装Python和pip等依赖环境。
模型下载与启动
安装CUDA工具包
考虑到不同用户的显存大小差异,推荐使用 llama.cpp 方案而非vLLM或DeepSpeed,稳定性更好,对显存也更友好。
llama.cpp 技术原理:llama.cpp 是由 Georgi Gerganov 开发的纯 C/C++ 推理框架,最初为在 MacBook 上运行 LLaMA 模型而设计,后逐渐演变为支持几乎所有主流开源模型的通用推理引擎。其核心技术是 GGUF 量化格式,通过将模型权重从 FP32/FP16 压缩为 INT4、INT8 等低精度格式,可将模型体积缩减 50%-75%,同时保持 90% 以上的模型性能。相比 vLLM 和 DeepSpeed,llama.cpp 对硬件要求更低,无需复杂的分布式配置,单张消费级显卡即可流畅运行,是个人用户本地部署的首选方案。
安装过程中如果报错,通常是缺少CUDA工具包,需要先装一个约2GB的CUDA toolkit,然后设置路径并重新编译,编译大概需要5分钟。

根据显存选择合适的模型规格
模型选择取决于你的显存大小,下面是推荐方案:
| 显存大小 | 推荐模型 | 模型大小 |
|---|---|---|
| 24GB | Qwen3.6 27B | ~17GB |
| 12-16GB | Qwen3.5 9B | 较小 |
| 8GB | Qwen3.5 4B | 更小 |
| 4-6GB | Qwen3.5 0.8B/2B | 最小 |
模型体积远小于参数量对应的理论大小,正是得益于 GGUF 量化压缩技术。以 27B 模型为例,FP16 精度下原始体积约 54GB,经过 INT4 量化后压缩至约 17GB,显存占用也随之大幅降低。
国内用户如果无法直接访问HuggingFace,可以切换到ModelScope或国内镜像站下载。以27B模型为例,100Mbps的下载速度下大约2分钟就能下完。
启动本地模型服务
下载完成后,通过命令启动模型服务。如果你用的模型和教程不同,一定要替换命令中的模型名称。启动成功后,浏览器访问 localhost:8080 就能看到聊天界面。
模型默认开启深度思考模式(类似CoT推理),如果想要更快的响应速度,可以 Ctrl+C 停止服务后用关闭深度思考的命令重新启动。
关于 CoT 推理与深度思考模式:CoT(Chain-of-Thought
相关推荐
教程攻略Cursor+Codex双IDE协同:开源项目二开实战方法论
基于实战经验总结的开源项目二次开发完整方法论,详解Cursor+Codex双IDE协同工作流,涵盖二开七环节、MVP验证、AI读源码技巧,帮助开发者三天跑通项目、两周完成业务集成。
教程攻略Cursor多Agent实战:50分钟搭建Next.js全栈博客
使用Cursor IDE多Agent协作模式,50分钟内从零搭建全栈博客。涵盖Next.js、Clerk认证、Supabase数据库集成,详解4个AI Agent分阶段开发流程与关键避坑经验。
教程攻略从零搭建AI软件工厂:Cursor工程师的多Agent协作实战经验
Cursor工程师Eric分享AI软件工厂构建实战:从自动化六层级、护栏设计、并行Agent管理到规模化扩展,详解如何用多Agent协作实现7×24小时高效软件开发。