Hermes Agent完全指南：从零搭建自我进化的AI助手

什么是Hermes Agent？

Hermes Agent是一个开源AI代理项目（MIT许可证），目前在GitHub上已获得超过14万颗星，是增长最快的开源项目之一。它最核心的特点是自我进化能力——通过编写和更新自己的技能（Skills），随着使用时间的增长变得越来越强大。

这种自我进化能力建立在一个被称为"元编程"（Meta-programming）的理念之上。传统AI助手的能力在部署时就已固定，而Hermes通过将操作流程外化为可读写的Markdown文件，实现了运行时的能力扩展。这种设计借鉴了认知科学中的"程序性记忆"概念——人类通过反复练习将复杂操作内化为肌肉记忆，Hermes则通过将重复工作流转化为结构化的技能文件来实现类似效果。这种架构也被称为"Tool-Use Agent"范式，是当前AI Agent研究的主流方向之一。

Hermes Agent概览

它可以运行在你自己的基础设施上，无论是Mac Mini、笔记本、VPS还是Docker容器，甚至可以通过Termux在Android上运行。支持Telegram、Discord、Slack、WhatsApp甚至iMessage等多种消息平台作为交互界面。

开箱即用时，Hermes已内置91个技能，社区技能库中更有超过520个可安装的技能。它能做的事情远超普通聊天机器人：生成ExcalDraw图表、语音对话、视频制作、YouTube评论监控、每日新闻简报、服务器安全检查等等。

Hermes的五大核心支柱

支柱一：记忆（Memory）

记忆是Hermes跨会话携带的持久上下文。核心文件有两个：

user.md：记录你是谁、你的风格偏好、你不喜欢什么
memory.md：记录环境信息、正在进行的项目、业务背景

这两个文件在每次会话开始时加载，确保Agent不会像失忆一样每次都从零开始。关键的是，Hermes会自动从对话中提取信息并更新这些文件，但你仍然应该主动告诉它"把这个记住"或"永远不要再这样做"。

Hermes的记忆系统与当前流行的RAG（检索增强生成，Retrieval-Augmented Generation）技术有本质区别。RAG通常将大量文档切片后存入向量数据库，在查询时检索相关片段注入上下文。而Hermes采用的是更轻量的"文件即记忆"方案——直接将关键信息浓缩在user.md和memory.md两个文件中，每次会话启动时全量加载。这种方式的优势在于：信息密度高、无检索延迟、不存在向量相似度匹配的语义漂移问题。缺点是受限于上下文窗口大小，不适合存储海量信息。这也是为什么Hermes强调"提取"而非"存储"——它会主动压缩和更新记忆，而非无限累积。

支柱二：技能（Skills）

技能是可复用的操作手册，就像烹饪食谱一样确保每次执行的一致性。每个技能文件（skill.md）包含YAML前置信息，告诉Agent这个技能的用途，实现渐进式披露——只在需要时才加载完整技能内容到上下文中。

YAML Front Matter（前置信息）是一种源自静态网站生成器（如Jekyll、Hugo）的元数据格式，用三条短横线（---）包裹在文件顶部。在Hermes的技能系统中，YAML前置信息充当"索引卡片"的角色，包含技能名称、触发条件、适用场景等摘要信息。渐进式披露（Progressive Disclosure）是用户界面设计中的经典原则，意为只在用户需要时才展示复杂信息。应用到AI Agent中，这意味着Agent不会一次性将所有520+技能的完整内容加载到有限的上下文窗口中，而是先读取摘要判断相关性，仅在确认需要时才加载完整技能文档。这极大地节省了Token消耗并提高了响应准确性。

Hermes会分析你的工作流程，自动将重复操作转化为技能，并根据你的反馈持续优化。社区技能库提供了超过520个现成技能，涵盖设计、编程、自动化等多个类别。

支柱三：灵魂（Soul）

Soul.md文件定义了Agent的个性。如果你有多个Hermes实例，每个都可以有不同的"性格"——简洁的、幽默的、严肃的。这个文件也会随着你的反馈逐渐进化。

支柱四：定时任务（Crons）

Cron将Hermes从被动响应转变为主动执行的自动化引擎。你可以用自然语言说"每天早上6点执行XYZ"，它就会创建定时任务。每次触发时会启动一个全新的隔离会话，执行完毕后将结果发回原始聊天。

Cron是Unix/Linux系统中历史悠久的任务调度器，名称来源于希腊语"Chronos"（时间）。传统Cron使用五段式表达式（分时日月周）定义执行时间，例如"0 6 * * *"表示每天早上6点。Hermes对此进行了自然语言抽象——用户只需说"每天早上6点"，Agent会自动将其转换为底层的Cron表达式。更关键的设计是"隔离会话"机制：每次Cron触发时会创建一个独立的执行环境，这避免了定时任务的输出污染主对话的上下文，也防止了长时间运行的任务因上下文溢出而失败。这种设计类似于操作系统中的进程隔离概念。

Hermes功能演示

支柱五：自我进化循环

整个循环是：做工作→Agent学习→保存到记忆→将重复步骤转化为技能→搜索历史会话获取旧上下文→循环往复。使用越多，Hermes就越了解你、越强大。

Hermes vs Claude Code vs OpenClaw

作者给出了一个清晰的使用场景划分：

Claude Code：日常主力工具，90%的知识工作在这里完成，适合坐在电脑前深度编码
Hermes/OpenClaw：移动端使用，通过Telegram随时随地管理任务、设置Cron、快速交互

作者从OpenClaw转向Hermes的主要原因是OpenClaw频繁更新导致崩溃，而Hermes更轻量、更稳定、更专注于自我进化。但这些工具并非互斥——通过GitHub仓库同步，你可以让所有Agent共享同一个知识库。

实战：从零搭建Hermes Agent

VPS部署

推荐使用VPS（虚拟私有服务器）部署。选择Ubuntu 24.04 LTS系统，可以选择Docker容器化部署（一键安装，更简单）或直接安装在VPS根目录。

Docker是一种操作系统级虚拟化技术，它将应用及其依赖打包成标准化的"容器"，确保在任何环境中都能一致运行。对于AI Agent部署，Docker的价值尤为突出：首先是环境隔离——每个Agent容器拥有独立的文件系统、网络栈和进程空间，一个Agent的崩溃不会影响其他实例；其次是可复现性——通过Dockerfile定义的构建步骤，可以在任何机器上精确重建相同环境；最后是资源管控——可以为每个容器设置CPU和内存限制，防止某个Agent占用过多资源。相比直接在VPS上安装，Docker方式虽然增加了约5-10%的性能开销，但在多Agent管理场景下带来的运维便利性远超这点代价。

Docker方式的优势在于：每个Agent有自己独立的环境、API密钥和记忆，互不干扰，便于管理多个Agent实例。

配置流程

选择推理提供商：推荐OpenAI Codex（可直接使用ChatGPT订阅，最经济）
设置消息通道：配置Telegram Bot（通过BotFather创建）
设置用户权限：限制只有你的Telegram账号能与Agent交互

推理提供商（Inference Provider）是指提供大语言模型API调用服务的平台。Hermes作为一个模型无关的Agent框架，支持多种后端：OpenAI、Anthropic、Google Gemini、本地部署的开源模型（通过Ollama或vLLM）等。作者推荐OpenAI Codex的原因在于经济性——如果你已经订阅了ChatGPT Plus/Pro，可以直接复用该订阅的API额度，无需额外付费。选择推理提供商时需要权衡的因素包括：模型能力（推理深度）、响应速度（延迟）、成本（每百万Token价格）、隐私合规（数据是否离境）以及可用性（SLA保障）。

部署配置

API密钥安全管理

绝对不要直接在聊天中粘贴API密钥。正确做法是通过终端命令：

hermes config set GITHUB_TOKEN <你的token>

这会将密钥存入.env文件，而非对话历史中。即使使用私有开源模型，也建议养成这个习惯。

GitHub备份

设置完成后的第一件事应该是连接GitHub仓库。如果VPS出问题，你不会丢失任何数据。创建一个Cron任务每晚自动同步：

"每天午夜中部时间，将所有更改推送到GitHub仓库"

Hermes会自动处理时区转换、创建.gitignore排除敏感文件等细节。

管理最佳实践

用Claude Code管理所有Agent

一个极其实用的建议：创建一个Claude Code项目专门管理你的所有VPS和Agent。记录每个Agent的IP地址、密码、环境变量、Docker容器信息。当Agent出问题时，你可以用Claude Code帮你排查和修复。

安全原则

给每个Agent独立的账号（邮箱、API密钥）
为不同Agent的API密钥命名，追踪消费
遵循最小权限原则：像对待新实习生一样对待Agent
设置VPS防火墙，定期安全审计

最小权限原则（Principle of Least Privilege，PoLP）是信息安全领域的基石概念，由Jerome Saltzer在1975年提出。其核心思想是：任何实体（用户、程序、进程）只应被授予完成其任务所需的最小权限集合。应用到AI Agent场景中，这一原则尤为重要——因为Agent具有自主执行代码和调用API的能力，权限过大可能导致灾难性后果。例如，一个负责发送每日新闻简报的Agent不应该拥有删除数据库的权限；一个监控YouTube评论的Agent不需要访问你的银行API密钥。作者将Agent比作"新实习生"非常贴切：你不会在第一天就给实习生公司所有系统的管理员权限，而是随着信任的建立逐步开放。

何时创建新Agent？

遵循决策树：

需要不同的权限/密钥/工具？→ 新Agent
需要独立的长期记忆？→ 新Agent
是持续重复的工作？→ 新Agent
只是一次性任务？→ 留在主Agent

不要过早拆分。先把一个Agent用好，等自然感觉到需要分离时再行动。

维护心法

Agent犯错两次→当场纠正并更新技能/记忆
同一指令给了两次→让它写成技能
回复太啰嗦或语气不对→编辑Soul文件
行为异常→检查memory.md，过时记忆是怪异行为的头号原因

Hermes不是一个设置完就结束的工具，而是一个需要持续训练的队友。你投入越多时间与它互动、给予反馈，它就会变得越强大、越懂你。

核心要点

Hermes Agent是一个14万星的开源AI代理，核心特点是通过自动编写和更新技能实现自我进化
五大核心支柱：记忆（Memory）、技能（Skills）、灵魂（Soul）、定时任务（Crons）和自我进化循环
与Claude Code互补使用：Claude Code适合深度编码，Hermes适合移动端随时管理任务和自动化
部署推荐Docker容器化方式，配合GitHub自动备份和Claude Code项目统一管理所有Agent
安全最佳实践：独立账号、最小权限、API密钥通过终端配置而非聊天输入