
1. Hermes Agent 简介
1.1 定义与核心理念
Hermes Agent 是由 Nous Research 开发的一款开源(MIT 许可)的自改进型 AI Agent 框架。
其核心理念在于构建一个能够通过经验学习、自主优化能力、持久化知识,并在跨会话中持续完善用户认知模型的智能体 。
该框架内置了独特的闭环学习系统,使其能够从实践中创建和改进技能,从而实现持续的自我提升。
1.2 主要特点
Hermes Agent 具备多项显著特点,使其在 AI Agent 领域独树一帜。
首先,其核心是闭环学习系统,通过 FTS5 跨会话召回和 LLM 总结,Agent 能够自主策划记忆、接收定期提示、自主创建技能并在使用中自我改进 。
其次,它支持多平台运行,不仅可以在本地、Docker、SSH 等多种终端后端部署,还能通过 Telegram、Discord、Slack、WhatsApp 等 20 多个主流平台进行交互,极大地扩展了其应用范围 。
此外,Hermes Agent 实现了模型无关性,兼容 Nous Portal、OpenRouter、OpenAI 等多种大型语言模型提供商和模型,用户可以根据需求自由切换,避免了厂商锁定 。
2. 核心架构与组件
Hermes Agent 的强大功能源于其精心设计的核心架构和组件,这些组件协同工作,共同支撑了 Agent 的自学习和自改进能力。
2.1 学习循环
学习循环是 Hermes Agent 的基石,它赋予 Agent 从经验中学习并不断改进的能力。
这一机制涵盖了技能的自主创建、在使用过程中的技能改进、知识的持久化以及跨会话中用户模型的深化,确保 Agent 能够随着时间的推移变得更加智能和高效 。
2.2 内存系统
为了实现知识的持久化和跨会话的连贯性,Hermes Agent 采用了先进的分层内存系统。
该系统能够记住用户的偏好、项目和环境,并通过 MEMORY.md 和 USER.md 等文件进行有效管理,确保 Agent 在不同会话中都能保持对用户上下文的理解 。
2.3 技能系统
技能在 Hermes Agent 中扮演着扩展 Agent 能力的关键角色。
这些技能是按需加载的知识文档,Agent 可以在需要时调用。技能遵循渐进式披露模式,以最小化 Token 使用,并且兼容 agentskills.io 开放标准,这意味着技能可以被移植、共享,并由社区贡献 。
2.4 工具与工具集
工具是 Agent 执行特定任务的手段,例如进行网络搜索、执行终端命令、编辑文件、管理内存或进行任务委托。
这些工具被组织成逻辑工具集,可以根据具体的平台和任务需求进行启用或禁用,从而为 Agent 提供灵活多样的操作能力 。
2.5 上下文管理
有效的上下文管理对于 Hermes Agent 理解和响应用户请求至关重要。它通过以下机制实现:
- 上下文文件 (Context Files):Hermes Agent 能够自动发现并加载项目相关的上下文文件,例如 .hermes.md、AGENTS.md、CLAUDE.md、SOUL.md 和 .cursorrules。这些文件共同塑造了 Agent 在特定项目中的行为和响应方式 。
- 上下文引用 (Context References):用户可以通过 @ 符号直接引用文件、文件夹、Git Diff 或 URL,将这些内容无缝地注入到消息中。Hermes Agent 会自动扩展这些引用,并将相关内容附加到对话上下文中 。
- 上下文压缩与缓存:为了优化性能和降低成本,Hermes Agent 还具备上下文压缩和缓存功能,有效减少了 Token 的使用量,提高了处理效率 。
3. 功能模块详解
Hermes Agent 提供了丰富的功能模块,涵盖了自动化、媒体与网络、集成和定制化等多个方面,使其能够应对各种复杂的任务场景。
3.1 自动化
Hermes Agent 的自动化能力使其能够高效地执行重复性任务和复杂工作流:
计划任务 (Scheduled Tasks – Cron):用户可以使用自然语言或标准的 Cron 表达式来安排任务自动运行。
这些任务可以附加技能,并将执行结果发送到任何指定平台,同时支持暂停、恢复和编辑操作 。
- 子 Agent 委托 (Subagent Delegation):通过 delegate_task 工具,Hermes Agent 可以生成具有独立上下文、受限工具集和自身终端会话的子 Agent 实例。这一功能支持并行工作流,默认情况下可以同时运行 3 个并发子 Agent 。
- 代码执行 (Code Execution):execute_code 工具允许 Agent 编写 Python 脚本,并通过沙盒 RPC 执行以编程方式调用 Hermes 工具。这使得多步骤工作流能够被简化为单次 LLM 推理,极大地提高了效率 。
- 事件钩子 (Event Hooks):Agent 可以在关键生命周期点运行自定义代码,用于处理日志记录、警报通知和 Webhook 等功能 。
- 批量处理 (Batch Processing):Hermes Agent 支持并行处理数百甚至数千个提示,并生成结构化的 ShareGPT 格式轨迹数据,这些数据可用于训练数据生成或模型评估 。
3.2 媒体与网络
在媒体和网络方面,Hermes Agent 提供了强大的交互和处理能力:
- 语音模式 (Voice Mode):在 CLI 和消息平台中,Hermes Agent 实现了完整的语音交互功能。用户可以通过麦克风输入,Agent 则以语音形式回复,甚至可以在 Discord 语音频道中进行实时语音对话 。
- 浏览器自动化 (Browser Automation):Agent 具备完整的浏览器自动化功能,支持导航网站、填写表单和从网页中提取信息,可用于数据抓取和自动化操作 。
- 视觉与图像粘贴 (Vision & Image Paste):Hermes Agent 支持多模态视觉功能。用户可以将图像从剪贴板粘贴到 CLI 中,并要求 Agent 使用任何支持视觉的模型来分析、描述或处理这些图像 。
- 图像生成 (Image Generation):通过与 FAL.ai 集成,Agent 可以根据文本提示生成图像,并支持 FLUX 2 Klein/Pro、GPT-Image 1.5/2、Nano Banana Pro 等多种模型 。
- 语音与文本转语音 (Voice & TTS):Agent 支持跨所有消息平台的文本转语音输出和语音消息转录,并提供 Edge TTS、ElevenLabs、OpenAI TTS 等十种原生提供商选项,以及自定义命令提供商 。
3.3 集成
Hermes Agent 具有高度的可集成性,能够与多种外部系统和服务无缝协作:
- MCP 集成 (MCP Integration):Agent 可以通过 stdio 或 HTTP 传输连接到任何 MCP 服务器,从而访问来自 GitHub、数据库、文件系统和内部 API 的外部工具,而无需编写原生 Hermes 工具。它还支持每个服务器的工具过滤和采样 。
- 提供商路由与回退 (Provider Routing & Fallback):Agent 提供了对 AI 提供商的细粒度控制,允许用户根据成本、速度或质量进行优化,并支持排序、白名单、黑名单和优先级排序。当主模型遇到错误时,它还能自动故障转移到备用 LLM 提供商 。
- 凭证池 (Credential Pools):Agent 可以在同一提供商的多个密钥之间分配 API 调用,并在达到速率限制或发生故障时自动轮换 。
- 内存提供商 (Memory Providers):用户可以插入外部内存后端,如 Honcho、OpenViking 等,以实现超越内置内存系统的跨会话用户建模和个性化 。
- API 服务器 (API Server):Hermes Agent 可以作为 OpenAI 兼容的 HTTP 端点公开,从而连接到 Open WebUI、LobeChat、LibreChat 等任何支持 OpenAI 格式的前端 。
- IDE 集成 (ACP):Agent 可以在 ACP 兼容的编辑器(如 VS Code、Zed 和 JetBrains)中使用,提供聊天、工具活动、文件差异和终端命令等功能 。
- 强化学习训练 (RL Training):Agent 能够生成会话的轨迹数据,用于强化学习和模型微调 。
3.4 定制化
Hermes Agent 提供了丰富的定制选项,以满足不同用户的个性化需求:
- 个性化与 SOUL.md (Personality & SOUL.md):Agent 的个性是完全可定制的。SOUL.md 是主要的身份文件,它作为系统提示中的第一个内容,定义了 Agent 的默认声音。用户可以通过 /personality 预设在内置或自定义的个性之间进行切换 。
- 皮肤与主题 (Skins & Themes):用户可以定制 CLI 的视觉呈现,包括横幅颜色、加载动画、响应框标签和品牌文本等,以创建个性化的用户界面 。
- 插件 (Plugins):Hermes Agent 支持通过插件添加自定义工具、钩子和集成,而无需修改核心代码。它提供了通用插件、内存提供商和上下文引擎三种插件类型,并通过统一的 hermes plugins 交互式 UI 进行管理 。
4. 提示词工程
Hermes Agent 的提示词工程是一个关键领域,它关注如何有效地构建提示,以最大化 Agent 的性能和行为。
这包括利用 SOUL.md 文件来定义 Agent 的默认声音和行为模式,以及通过上下文文件和上下文引用机制来为每次对话提供精确和相关的上下文信息,从而引导 Agent 产生更准确和有用的响应 。
5. 安装与部署
5.1 安装方式
Hermes Agent 的安装过程相对简便,支持多种操作系统和环境:
- Linux / macOS / WSL2:用户可以通过简单的 curl 命令一键安装 Hermes Agent,安装脚本会自动处理依赖项。
- Windows (原生 PowerShell):对于 Windows 用户,可以通过 iex 命令进行安装。需要注意的是,这目前处于早期测试阶段,可能会遇到一些兼容性问题 。
- Android (Termux):在 Android 设备的 Termux 环境中,安装方式与 Linux 类似,同样使用 curl 命令即可 。
5.2 部署环境
Hermes Agent 具有高度的部署灵活性,可以在多种环境中运行,以适应不同的资源和成本需求。
它既可以在成本较低的虚拟私人服务器(VPS)上运行,也可以部署在高性能的 GPU 集群中,甚至支持无服务器(Serverless)基础设施,如 Daytona 和 Modal。
这种灵活性使得用户可以根据实际需求选择最经济高效的部署方案 。
6. 社区与资源
为了帮助用户更好地了解和使用 Hermes Agent,Nous Research 提供了丰富的社区和资源:
- 官方文档:hermes-agent.nousresearch.com/docs
- GitHub 仓库:github.com/NousResearch/hermes-agent
- Discord 社区:discord.gg/NousResearch
- 技能中心 (Skills Hub):agentskills.io
7. 参考文献
[1] Hermes Agent Documentation. (n.d.). Retrieved from
[2] NousResearch/hermes-agent. (n.d.). GitHub. Retrieved from
相关导航


Happycapy

Rose.ai

pd虚拟机

讯飞星辰AstronClaw

WorkBuddy

openclawdir



