Agent-S

1天前发布 145 00

Agent S通过经验增强的分层规划与记忆机制,实现了像人类一样自主操作计算机完成复杂任务。

收录时间:
2026-05-17

Agent S:像人类一样使用计算机的开放智能体框架

Agent S 是一个创新的开源智能体框架,旨在通过图形用户界面(GUI)实现计算机的自主交互,从而彻底改变人机交互的方式。该框架的核心目标是自动化复杂的、多步骤的任务,让计算机像人类一样直观地被使用。

核心架构与创新方法

Agent S 引入了一种名为 经验增强的分层规划 的方法。这一方法结合了多种关键组件:

在线网络知识: 用于获取关于频繁变化的软件和网站的最新信息。

叙述性记忆: 用于利用过去交互中的高层次经验。

情景记忆: 用于提供分步指导,帮助将复杂任务分解为可管理的子任务。

通过这种分层结构,Agent S 能够持续优化其行动,并从经验中学习,从而实现适应性强且有效的任务规划。

关键能力与应用场景

Agent S 主要解决了自动化计算机任务中的三个关键挑战,并展现出广泛的应用潜力:

自动化复杂工作流: 无论是日常办公任务还是专业知识密集型应用,Agent S 都能胜任。例如,它能够自主完成“帮助我删除账户‘anonym-x2024@outlook.com’”这样的多步骤操作,通过模拟人类的点击和操作流程,逐步完成任务。

跨平台与系统通用性: Agent S 不仅限于单一操作系统。在针对 Windows 系统的 WindowsAgentArena 基准测试中,Agent S 无需任何修改即可展现出出色的泛化能力,超越了同期发布的基线模型。

持续学习与记忆构建: 框架内置了记忆构建和更新流程,包括 自监督探索持续记忆更新 两个阶段。它可以在探索阶段通过随机策划的任务构建初始记忆,并在后续推理任务中不断更新和完善记忆库,从而提升领域知识。

卓越的性能表现

在业界公认的 OSWorld 基准测试中,Agent S 取得了卓越的成绩:

全面领先: 在 GPT-4o 模型的支持下,Agent S 的整体成功率达到 20.58%,几乎是当前最佳基线模型(GPT-4o 的 11.21%)的两倍,实现了 83.6% 的相对性能提升。

场景优势: 在“日常”和“专业”任务中,Agent S 分别达到了 27.06% 和 36.73% 的成功率,远超基线模型(12.33% 和 14.29%),这充分证明了其在知识密集型应用中的强大能力。

技术亮点分析

经验学习提升领域知识: 从网络知识中学习通用经验,使 Agent S 能够在广泛的任务中做出明智的规划。叙述性记忆和情景记忆的协同作用,进一步增强了其处理复杂任务的能力。

智能体-计算机接口(ACI): ACI 的设计能够更好地激发多模态大语言模型的推理和控制能力,并支持更有效的智能体学习。实验证明,集成 ACI 后,智能体的学习效果显著提升。

分层规划支持长序列工作流: 在存在经验学习的情况下,分层规划的效果尤为明显。管理者(Manager)可以在子任务规划阶段生成更详细、更准确的计划,从而有效支持长序列、多步骤的任务执行。

总结

Agent S 作为一个开放、强大的智能体框架,通过其创新的经验增强分层规划方法,成功解决了计算机任务自动化中的多项核心难题。它不仅在日常和专业任务中展现出卓越的性能,还具备跨操作系统的强大泛化能力,为未来更智能、更自主的人机交互应用奠定了坚实的基础。

PMKG知识社交

相关导航

暂无笔记

您必须登录才能记录笔记!
立即登录
none
暂无笔记...