Hermes Agent 0.14.0更新:原生Windows支持与180倍性能提升

Hermes Agent 0.14.0发布重大更新,涵盖性能飞跃、Windows支持和多项新功能。
开源AI Agent项目Hermes Agent发布0.14.0"Foundation Update",带来多项里程碑式改进:全新本地代理层实现一个订阅路由所有AI工具;浏览器自动化通过持久CDP连接提速180倍;新增原生Windows支持、AI视频生成、SuperGrok集成;引入无损上下文Handoff系统支持多模型无缝切换;并免费接入DeepSeek V4 Flash模型,全方位降低使用门槛并提升系统能力。
概述:Hermes Agent迎来里程碑式更新
Hermes Agent(又称Kermis)是目前最值得关注的开源AI Agent项目之一,由Manusreserve在MIT许可下开发。它被设计为一个持久的自主系统,能够随时间持续进化,构建长期记忆、复用技能,并深入理解用户需求。
自主代理(Autonomous Agent)区别于普通聊天机器人的核心特征是:它能够独立规划、执行多步骤任务,并在无人干预的情况下持续运行。Hermes的"持久自主系统"设计意味着它不仅能执行即时任务,还维护着跨会话的长期记忆(Long-term Memory)。这通常通过向量数据库(如ChromaDB、Qdrant)存储历史交互的语义嵌入来实现,使Agent能够检索过去的经验来指导当前决策。技能复用(Skill Reuse)则是指Agent将成功完成的任务流程抽象为可复用的"技能模板",类似于编程中的函数封装,下次遇到相似任务时可直接调用而无需重新规划。
近日,Hermes Agent发布了0.14.0版本,官方将其命名为"Foundation Update"(基础更新),涵盖了Windows原生支持、性能大幅提升、原生视频生成、DeepSeek V4免费接入等多项重大改进。这可能是Hermes Agent迄今为止最重要的一次版本迭代。
全新本地代理功能:一个订阅搞定一切
本次更新中最具创新性的功能是全新的本地代理(Local Proxy)层。借助这一功能,用户只需一个订阅(如Claude、ChatGPT或Grok),即可将其路由到几乎任何本地编码工具或自主代理,无需为每个应用单独配置API密钥。

从技术角度来看,本地代理层本质上是一个运行在用户本机的反向代理服务器,它拦截本地应用发出的API请求,并将其转发到用户已订阅的云端服务。这种架构模式在微服务领域被称为"API网关"(API Gateway),常见于Envoy、Nginx等基础设施中。在AI工具生态中,用户通常需要为每个工具(如Cursor、Continue、Cline等)分别配置API密钥,不仅繁琐且存在密钥泄露风险。Hermes的本地代理通过OAuth或浏览器Cookie等方式完成一次性认证,随后以OpenAI兼容格式暴露本地端点(通常是localhost上的某个端口),任何支持OpenAI API格式的工具都可以直接接入,无需额外配置。
这个代理层的核心优势包括:
- 统一身份验证:代理层自动处理所有认证流程
- 自动路由:设置更简单,配置更省心
- 降低使用门槛:无需单独的API密钥
- 多智能体工作流:提供更简单的多Agent协同系统
如果你想将Hermes代理接入OpenAI兼容的本地端点(例如使用Codex),只需输入相应命令,它将立即提供一个本地的OpenAI兼容API端点,直接启用你已有的任何订阅套餐。这一改进极大地统一了AI协同工作流生态,让整个系统更易于访问。
SuperGrok集成:深度接入X生态系统
Hermes现在全面支持Grok的SuperGrok订阅集成,这意味着:
- 不需要API密钥,只需一次浏览器登录
- 无需单独计费系统
- 支持Grok 4.3文本聊天
- 支持Grok文本转语音功能
- 支持图像和视频生成
- 支持实时X(Twitter)研究

这意味着你可以构建专门的自主研究代理,持续监控X平台、收集信息、总结趋势,并将结果反馈到自动化工作流中。Hermes的自我进化特性使其能不断从推特信息中学习,持续改进输出质量。据称整个设置过程仅需约60秒即可完成。
性能飞跃:启动提速与浏览器自动化革命
启动速度优化
Hermes的启动速度提升了约19秒,这得益于:
- 核心启动流程优化
- 延迟加载机制
- 缓存改进
- 并行启动检查
- 重型适配器和插件仅在实际需要时才加载
- 优先使用本地缓存而非网络访问
延迟加载(Lazy Loading)是软件工程中的经典优化模式,核心思想是"按需加载"——只在资源真正被使用时才将其加载到内存中。在Hermes的场景下,系统启动时可能注册了数十个适配器(Adapter)和插件(Plugin),如果全部在启动阶段初始化,会导致严重的启动延迟。通过延迟加载,系统启动时只加载核心调度器和配置管理器,各个适配器在首次被调用时才完成初始化。结合并行启动检查(Parallel Boot Check)——即同时验证多个依赖项的可用性而非逐一串行检查——以及本地缓存优先策略(避免启动时的网络请求),共同实现了19秒的启动时间缩减。
浏览器自动化180倍提速
最令人惊叹的改进是浏览器自动化性能。Hermes现在支持持久的Chrome DevTools Protocol(CDP)连接,无需每次交互都启动新的浏览器会话。

Chrome DevTools Protocol是Chrome浏览器提供的一套远程调试协议,允许外部程序通过WebSocket连接控制浏览器行为,包括页面导航、DOM操作、网络拦截、JavaScript执行等。Playwright、Puppeteer等主流浏览器自动化框架底层都依赖CDP。传统方式下,每次自动化任务都需要启动一个全新的浏览器实例(冷启动),涉及进程创建、内存分配、页面渲染等开销,通常需要2-5秒。而持久CDP连接意味着浏览器实例保持运行状态,自动化指令通过已建立的WebSocket通道直接发送,省去了反复启动和销毁浏览器的巨大开销,这就是180倍性能提升的技术基础。
过去需要数秒才能完成的浏览器操作,现在几乎瞬间完成,某些工作流的速度提升高达180倍。此外还增加了跨会话一小时的云端工作流提示缓存,让跨会话的首次响应更快、成本更低。
原生Windows支持与AI视频生成
Windows Beta原生支持
Hermes现在可以直接在Windows上运行,无需复杂的Linux环境配置。开发团队在以下领域进行了重大修复:
- 终端和进程管理
- Python和NPM环境原生实体处理
- 文件路径管理
- Windows特有行为适配
- 网关和工具编排
同时推出了官方PIP打包,安装过程大幅简化。用户还可以通过kermis dashboard命令启动Web UI,轻松配置技能、插件、运行计划任务。
原生AI视频生成
Hermes Agent现在具备原生AI视频生成功能,通过新的统一视频生成系统,AI Agent可以直接在工作流中创建视频。这意味着你的AI代理可以:
- 生成真实的视频内容
- 制作自动剪辑
- 生成视觉内容
- 构建按时自动运行的多媒体工作流
Handoff命令与DeepSeek V4免费接入
无缝切换的Handoff系统
新的Handoff命令允许在不同模型、个性或配置间无缝转移整个实时会话,且不丢失上下文。

转移内容包括:消息、工具调用、内存、会话中的活动工作流和状态。你可以在某个模型上启动任务,然后无缝交给更深层次的推理模型来调试、分析或优化,无需重启工作流。这对长期自主代理工作流尤为重要。
在多模型协作场景中,最大的技术挑战是上下文(Context)的无损传递。大语言模型的上下文不仅包括对话历史,还涉及工具调用记录、中间推理状态、内存变量等结构化数据。传统做法是将对话历史序列化后重新注入新模型的提示词中,但这会导致token浪费和信息丢失。Hermes的Handoff系统维护了一个统一的会话状态对象(Session State Object),包含完整的消息链、工具调用栈和工作流状态机,切换模型时只需更换推理后端而保持状态对象不变。这类似于操作系统中的进程迁移(Process Migration)概念,进程的内存空间和执行状态被完整转移到新的计算节点上。
DeepSeek V4 Flash免费使用
DeepSeek V4 Flash版本现已加入Hermes,目前免费提供。用户可以免费使用这一强大的开源智能体模型,用于自主工作流、编码、推理和长上下文处理。
DeepSeek是由深度求索公司开发的开源大语言模型系列,以极高的性价比著称。DeepSeek V4是其最新一代模型,采用了混合专家(Mixture of Experts, MoE)架构,在推理时只激活部分参数,从而在保持高性能的同时大幅降低计算成本。Flash版本通常指经过推理优化的轻量化变体,适合高吞吐、低延迟的生产场景。在Hermes中免费提供DeepSeek V4 Flash,意味着用户无需支付任何API费用即可获得接近GPT-4级别的推理能力,这对于需要长时间运行的自主代理工作流尤为重要,因为持续运行的Agent会产生大量token消耗。
更多值得关注的更新
- X-Search功能:允许Hermes直接在工作流中搜索X平台
- 视觉模型支持:直接接收图像而非文本摘要,实现更好的视觉推理
- Discord历史记录备份:让Hermes理解并处理所有进行的对话
- Telegram和Discord原生界面:方便理解各种指令
- 语义诊断:文件编辑后立即捕获编译错误
- 斜杠命令功能:动态添加目标到长时间运行的自主工作流中
总结
Hermes Agent 0.14.0的"Foundation Update"是一次全方位的重大升级。从本地代理统一认证到180倍浏览器性能提升,从原生Windows支持到AI视频生成,从DeepSeek V4免费接入到无损上下文Handoff系统,每一项改进都在降低使用门槛的同时提升系统能力。对于关注开源AI Agent发展的开发者和技术爱好者来说,这无疑是一个值得深入探索的项目。
安装和更新命令非常简单:使用kermis setup进行配置,kermis update更新到最新版本。
相关推荐
科技前沿GitHub Agent HQ发布:AI编程工具进入平台化竞争时代
GitHub Universe大会发布Agent HQ平台,统一管理编码Agent,Copilot升级支持多模型集成。同期OpenAI完成重组,Anthropic新模型测试,NVIDIA开源系列AI模型,AI编程工具格局加速整合。
科技前沿Gemini 3.5 Flash在GDPval基准上实现巨大飞跃
Google Gemini 3.5 Flash在GDPval基准测试中超越Gemini 3.1 Pro,轻量级Flash模型借助后训练技术逼近前沿水平,重新定义性能与成本的平衡点,为AI应用开发者带来重大利好。
科技前沿Google Gemini Antigravity周配额三倍提升,AI编程不再受限
Google Gemini团队再次将Antigravity周配额提升至三倍,继日配额提升后再次加码。本文解析此次配额调整对开发者的实际影响,以及在AI编程助手竞争格局中的战略意义。