Hermes Agent部署教程:用Telegram实现手机AI编程工作流

引言:让AI在你通勤时帮你写代码
想象一下,在地铁上用手机和AI对话,它就能帮你在真实项目上写代码、部署上线。这不是科幻场景,而是一位多伦多开发者的日常工作流。
本文将详细介绍如何将Hermes Agent部署在VPS上,通过Telegram实现随时随地的AI编程协作。这套工作流的核心价值在于:你不需要打开电脑,只需要一部手机,就能让AI帮你完成从编码到部署的完整流程。
技术架构:从Telegram到生产环境
整套系统的架构非常清晰:用户通过Telegram发送指令 → VPS上的Hermes Agent接收并执行 → 代码推送到GitHub → GitHub Actions自动部署到生产环境。
具体技术栈包括:
- Agent引擎:Hermes Agent(由Noose Research构建)
- 运行环境:VPS + Docker容器
- 通信接口:Telegram Bot
- 代码管理:GitHub CLI
- 部署方式:GitHub Actions CI/CD
这种架构的最大优势是VPS保证了7×24小时在线,不依赖本地电脑。Docker容器化则确保了环境的一致性和可维护性。具体而言,Docker在此架构中解决了几个关键问题:环境隔离确保Agent的依赖不会与VPS上其他服务冲突;镜像的可移植性意味着可以在任何支持Docker的服务器上快速复现相同环境;数据卷挂载则实现了Agent状态(记忆、技能、配置)与容器生命周期的解耦,即使容器重建也不会丢失Agent的学习成果。docker-compose.yaml文件定义了服务编排规则,使得整个系统可以通过一条命令启停。
GitHub Actions作为CI/CD环节同样至关重要。当Hermes Agent将代码推送到特定分支(如staging或main)时,预先配置的workflow文件会自动触发构建、测试和部署流程。这种设计将"写代码"和"部署代码"两个环节解耦——Agent只需要完成代码编写和git push,后续的构建打包、服务器部署、健康检查等复杂操作由GitHub Actions接管,既降低了Agent的复杂度,也提升了安全性。
Hermes Agent vs OpenClaw:为什么选择Hermes
Hermes Agent由AI研究机构Noose Research开发。Noose Research(也常被社区称为Nous Research)是一家专注于开源大语言模型研究的机构,以发布Hermes系列微调模型闻名。Hermes模型系列最初基于LLaMA架构进行指令微调,以其出色的指令遵循能力和工具调用(Function Calling)能力在开源社区获得广泛认可。Hermes Agent则是将这种能力产品化的尝试——它不仅仅是一个聊天模型,而是一个具备技能加载、工具执行和持久记忆的自主代理框架。
相比OpenClaw,Hermes有几个显著特点:
- 透明度更高:在Telegram聊天中可以实时看到Agent正在加载哪些技能、执行哪些命令、查看哪些文件。OpenClaw不提供这种可见性。
- 更加务实:Hermes在实际编程任务中表现得更加务实,不是说它比OpenClaw更好,而是风格不同。
- 自我修复能力:当出现问题时,可以直接让Hermes修复自己,它有权限运行所有需要的命令。
- 持久记忆:具备自我改进循环,会随着使用不断学习和优化。

部署实战:从零开始搭建Hermes Agent
VPS环境配置
部署过程分为三层:VPS → Docker容器 → Hermes Agent。使用Hostinger的一键部署可以跳过大部分手动配置,但理解底层结构很重要。
SSH登录VPS后,可以在Docker目录下找到Hermes Agent的配置:
docker-compose.yaml:定义了Docker镜像和数据卷挂载.env文件:存储Web访问的认证凭据data文件夹:Agent的"大脑",包含记忆、技能和认证上下文

模型提供商选择
设置过程中需要选择模型提供商。推荐Noose Portal或Codex,因为价格相对便宜。如果选择Anthropic,成本会非常高。视频演示中使用的是GPT 5.5,并选择了最高智能等级。
模型选择直接影响Agent的能力上限和运行成本。不同提供商的API定价差异巨大——以Claude(Anthropic)为例,其输入输出Token价格远高于开源模型的API服务。而Agent场景下的Token消耗量通常是普通对话的数十倍(因为需要反复读取文件、执行命令、分析结果),因此选择性价比高的模型提供商对长期使用至关重要。
Telegram Bot配置步骤
通过Telegram的BotFather创建Bot的过程非常简单:
- 搜索BotFather(认准蓝色认证标记)
- 发送
/newbot命令 - 设置Bot名称和用户名
- 获取Token并填入Hermes配置
Telegram Bot API提供了两种接收消息的方式:长轮询(Long Polling)和Webhook。在VPS部署场景中,通常使用Webhook模式——Telegram服务器会主动将用户消息推送到预设的HTTPS端点,这样Agent可以即时响应而无需持续轮询。BotFather是Telegram官方提供的Bot管理工具,通过它创建的每个Bot都会获得一个唯一的API Token,这个Token相当于Bot的身份凭证和访问密钥。
关键安全步骤:必须限制Bot只响应你自己的Telegram用户ID。如果不做这一步,任何人都可以与你的Bot对话并控制你的服务器。可以通过UserInfoBot获取自己的Telegram ID。限制Bot只响应特定用户ID是通过在代码层面过滤chat_id实现的,未授权的消息会被直接丢弃,从而防止未经授权的访问。

GitHub集成与权限管理
Hermes自带GitHub CLI技能,无需额外安装。设置过程中,Hermes会引导你完成GitHub认证流程。一个重要的安全实践是:为Agent创建独立的GitHub账户,只授予特定仓库的访问权限,而不是给它你主账户的完整权限。
这种最小权限原则(Principle of Least Privilege)在AI Agent场景中尤为重要。Agent可能会因为模型幻觉或指令误解而执行非预期操作,如果它持有你主账户的完整权限,潜在的破坏范围将不可控。通过独立账户+仓库级别的Collaborator权限,即使出现最坏情况,影响也被限制在特定仓库内。
实际演示:从Telegram对话到自动部署
构建博客功能
在Telegram中发送指令:"为我的网站构建一个博客并部署到staging环境"。Hermes的执行过程完全可见:
- 加载代码检查技能,定位项目文件
- 分析现有代码结构和设计风格
- 使用Codex生成博客配图(不额外产生API费用)
- 编写博客页面代码
- 执行
git push origin staging触发部署 - 监控GitHub Actions执行状态

整个过程中,Hermes展现了对项目风格的理解能力——生成的博客页面与网站整体设计风格高度一致。这种上下文理解能力来源于Agent在执行任务前会主动读取项目中的现有代码、样式文件和组件结构,将其作为生成新代码的参考依据,而非凭空创造。
手机端操作体验
从手机上发送"添加一篇关于Hermes Agent的博客文章",Agent会自动加载相关技能、编写内容、生成配图、推送代码并触发部署。整个流程无需人工干预,除了高风险命令需要在Telegram中手动批准。
这种Human-in-the-Loop(人在回路中)的设计模式在当前AI Agent领域被广泛采用。它既保留了自动化的效率优势,又为关键决策点设置了安全阀门。对于低风险操作(如读取文件、运行测试、git commit),Agent自动执行;对于高风险操作(如删除文件、强制推送、修改生产配置),则暂停执行并等待人工确认。这种分级授权机制是当前阶段AI Agent走向实用化的关键设计。
当前局限与优化方向
尽管Hermes Agent的体验令人印象深刻,但仍存在一些需要注意的问题:
-
Token消耗过高:Hermes倾向于"过度思考",运行大量命令和搜索操作,导致Token消耗较大且响应时间较长。Token消耗问题是当前所有AI Agent面临的共同挑战。Agent每次执行任务时,需要将系统提示词、历史对话、工具调用结果、文件内容等信息作为上下文传入模型,这些都会计入Token消耗。更多的探索性搜索意味着更高的任务成功率,但也带来更大的成本。随着Agent积累项目记忆,后续任务的搜索量会显著减少,这就是其"自学习能力"的体现。
-
学习曲线:Agent初次使用时需要较多搜索来定位项目文件,但随着使用次数增加,其自学习能力会逐步改善。Hermes的持久记忆机制会将项目结构、常用文件路径、代码风格偏好等信息存储在data目录中,后续任务可以直接调用这些记忆而无需重新探索。
-
CI/CD前置要求:GitHub Actions的部署工作流需要预先配置好,这不在Hermes的自动化范围内。开发者需要提前编写好
.github/workflows/目录下的YAML配置文件,定义构建步骤、部署目标和触发条件。 -
安全考量:将部署密钥交给GitHub管理而非暴露给Hermes,是更安全的做法。GitHub Actions的Secrets功能可以安全存储SSH密钥、API Token等敏感信息,这些信息在workflow执行时以环境变量形式注入,Agent本身无法读取这些密钥的明文值。
总结
Hermes Agent代表了AI辅助开发的一个重要方向:不是在IDE中嵌入AI助手,而是让AI成为一个独立运行的"开发者",通过消息接口接受指令并自主完成任务。这种模式特别适合那些有明确需求但暂时无法坐在电脑前编码的场景。
从更宏观的视角来看,这种架构模式预示了软件开发工作流的一种可能演变方向:开发者的角色从"亲手编写每一行代码"转变为"定义需求、审查结果、把控质量"。Agent承担了执行层面的工作,而人类专注于决策层面——决定做什么、验证做得对不对。这并非取代开发者,而是将开发者从重复性编码中解放出来,使其能够在更高的抽象层次上工作。
对于想要尝试这套工作流的开发者,建议从简单的功能开始,逐步建立对Agent能力边界的认知,再扩展到更复杂的开发任务。
核心要点
相关推荐

托管Agent时代来临:Anthropic与Google的两条路线之争
深度解析Anthropic与Google托管Agent的架构差异、定价策略与选型建议。托管Agent将Agent运行时从基础设施工作中解放出来,成为AI基础设施的新产品品类。

零基础搭建Claude Code开发环境:安装配置避坑指南
详细记录零基础用户从安装VS Code到配置Claude Code的完整流程,涵盖插件安装报错、API配置、模型切换等常见问题的解决方案,帮助新手快速上手AI编程工具。

AI召唤力:零代码用AI开发游戏的启示与实践
一位没有编程经验的UP主,仅凭自然语言提示词用AI开发出完整游戏。本文解析AI召唤力的核心维度,探讨零代码开发如何打破游戏开发工种壁垒,以及AI协作能力对产品经理、开发者和普通人的深刻启示。