CogAgent:基于VLM的开源图形界面智能代理
CogAgent 是一个基于视觉语言模型(VLM)的开源图形用户界面(GUI)智能代理。它能够像人类一样“看懂”屏幕截图,并执行点击、输入、滚动等操作,从而自动化完成各类图形界面任务。该模型由清华大学与智谱AI联合研发,相关论文已被CVPR 2024接收并评为Highlight(前3%)。
核心能力与优势
强大的GUI感知与推理能力:CogAgent-9B-20241220版本在GUI感知、推理准确性、动作空间完整性和任务通用性方面均有显著提升。它支持中英双语交互,用户既可以上传屏幕截图,也可以输入自然语言指令。
支持多平台操作:模型目前支持Windows 10/11、macOS 14/15以及Android 13/14/15等主流操作系统,能够适应不同平台的图形界面操作。
出色的基准测试表现:在多项GUI Agent任务和GUI定位基准测试中,CogAgent均取得了领先成绩。例如在屏幕定位(Screenspot)、单步操作(OmniAct)以及多步操作(OSWorld)等测试中表现优异,仅略逊于专为计算机使用场景优化的Claude-3.5-Sonnet等商业模型。
模型输入与输出格式
CogAgent采用严格的输入输出格式以确保最佳性能。用户需要按照特定的模板拼接提示词,包括任务描述、平台类型、历史操作记录以及期望的输出格式。
输入格式:用户输入的提示词需要包含”Task:”字段描述任务、”Platform:”字段指定操作系统(WIN/Mac/Mobile)、”History steps:”字段记录之前的操作步骤,以及”Answer in…”字段指定输出格式。
输出格式:模型支持多种输出格式,包括:Action-Operation(动作-操作)、Status-Plan-Action-Operation(状态-计划-动作-操作)、以及可选的Sensitive(敏感度)字段。输出包含具体的操作指令,如CLICK(box=[[坐标]]),指明操作区域。
实际应用场景
自动化办公:可以自动执行邮件管理操作,如将全部邮件标记为已读。用户只需提供任务描述和当前屏幕截图,模型就能识别界面元素并执行相应操作。
网页浏览与搜索:能够完成复杂的网页操作任务,例如搜索商品、筛选条件、浏览页面内容等多步操作流程。
社交互动:可以自动发送节日祝福、发送邮件等社交相关操作,实现人机协作的自动化社交管理。
部署与运行
硬件要求:模型推理至少需要29GB显存(BF16精度),推荐使用A100或H100等高端GPU。INT8精度推理约需15GB显存,INT4精度约需8GB但性能损失较大。
环境配置:需要Python 3.10.16或以上版本,通过pip安装相关依赖后即可运行。提供了命令行交互模式和在线Web演示两种运行方式。
微调支持:支持监督式微调(SFT)和LoRA微调。SFT需要8张A100 GPU,每张至少60GB显存;LoRA微调需要单张至少70GB显存的GPU。
应用价值
CogAgent为GUI自动化领域提供了一个强大的开源解决方案。开发者可以基于该模型构建各类自动化工具,例如自动化测试、流程机器人(RPA)、智能助手等。其开源的特性使得研究者和开发者能够自由地进行二次开发和定制,推动了GUI Agent技术的普及和创新。
相关导航

灵羽助手
xai
aminer学术搜索

pickaxe
semantic scholar

postai


