CogAgent

2个月前发布 2.4K 00

CogAgent是一个基于视觉语言模型的开源GUI代理，能够通过截图和自然语言理解用户指令，自动在Windows、macOS和Android等平台上执行界面操作任务。

收录时间：

2026-05-17

打开网站

CogAgent

打开网站

文章目录

核心能力与优势
模型输入与输出格式
实际应用场景
部署与运行
应用价值

CogAgent：基于VLM的开源图形界面智能代理

CogAgent 是一个基于视觉语言模型（VLM）的开源图形用户界面（GUI）智能代理。它能够像人类一样“看懂”屏幕截图，并执行点击、输入、滚动等操作，从而自动化完成各类图形界面任务。该模型由清华大学与智谱AI联合研发，相关论文已被CVPR 2024接收并评为Highlight（前3%）。

核心能力与优势

强大的GUI感知与推理能力：CogAgent-9B-20241220版本在GUI感知、推理准确性、动作空间完整性和任务通用性方面均有显著提升。它支持中英双语交互，用户既可以上传屏幕截图，也可以输入自然语言指令。

支持多平台操作：模型目前支持Windows 10/11、macOS 14/15以及Android 13/14/15等主流操作系统，能够适应不同平台的图形界面操作。

出色的基准测试表现：在多项GUI Agent任务和GUI定位基准测试中，CogAgent均取得了领先成绩。例如在屏幕定位（Screenspot）、单步操作（OmniAct）以及多步操作（OSWorld）等测试中表现优异，仅略逊于专为计算机使用场景优化的Claude-3.5-Sonnet等商业模型。

模型输入与输出格式

CogAgent采用严格的输入输出格式以确保最佳性能。用户需要按照特定的模板拼接提示词，包括任务描述、平台类型、历史操作记录以及期望的输出格式。

输入格式：用户输入的提示词需要包含”Task:”字段描述任务、”Platform:”字段指定操作系统（WIN/Mac/Mobile）、”History steps:”字段记录之前的操作步骤，以及”Answer in…”字段指定输出格式。

输出格式：模型支持多种输出格式，包括：Action-Operation（动作-操作）、Status-Plan-Action-Operation（状态-计划-动作-操作）、以及可选的Sensitive（敏感度）字段。输出包含具体的操作指令，如CLICK(box=[[坐标]])，指明操作区域。

实际应用场景

自动化办公：可以自动执行邮件管理操作，如将全部邮件标记为已读。用户只需提供任务描述和当前屏幕截图，模型就能识别界面元素并执行相应操作。

网页浏览与搜索：能够完成复杂的网页操作任务，例如搜索商品、筛选条件、浏览页面内容等多步操作流程。

社交互动：可以自动发送节日祝福、发送邮件等社交相关操作，实现人机协作的自动化社交管理。

部署与运行

硬件要求：模型推理至少需要29GB显存（BF16精度），推荐使用A100或H100等高端GPU。INT8精度推理约需15GB显存，INT4精度约需8GB但性能损失较大。

环境配置：需要Python 3.10.16或以上版本，通过pip安装相关依赖后即可运行。提供了命令行交互模式和在线Web演示两种运行方式。

微调支持：支持监督式微调（SFT）和LoRA微调。SFT需要8张A100 GPU，每张至少60GB显存；LoRA微调需要单张至少70GB显存的GPU。

应用价值

CogAgent为GUI自动化领域提供了一个强大的开源解决方案。开发者可以基于该模型构建各类自动化工具，例如自动化测试、流程机器人（RPA）、智能助手等。其开源的特性使得研究者和开发者能够自由地进行二次开发和定制，推动了GUI Agent技术的普及和创新。

暂无笔记

您必须登录才能记录笔记！

立即登录

暂无笔记...

CogAgent

CogAgent：基于VLM的开源图形界面智能代理

核心能力与优势

模型输入与输出格式

实际应用场景

部署与运行

应用价值

相关导航

arxiv Xplorer

特看数字人

灵医智惠

Midreal AI

scopus

生财有术项目精选

Noob Tower Defense Guide

紫荆智康

暂无笔记

欢迎来到「PMKG AI知识库」

欢迎来到 PMKG AI知识库