Agent总掉链子?拆解M3的「裁判与选手」分工

每日AI快讯15小时前更新 changgong
335 00

每日AI新闻

用AI编程的人大概都经历过这种憋屈时刻。你给Agent布置了7件事,它做完3件就停下来汇报,「我已经完成了1、2、3,是否需要继续?」。或者跑着跑着风格突变,前面还像个靠谱的工程师,后面忽然开始说胡话。你追加一个需求,「顺便帮我查一下这个」,它直接卡住,之前的工作全部中断。

问题出在单Agent架构里——裁判和选手是同一个人,不是模型不够聪明。

一、Agent的自我裁判悖论

单一Agent架构有一个先天矛盾:它既要干活,又要判断自己干得好不好。这就像让足球运动员同时当裁判,他一定会对自己最有利的判罚视而不见。

模型在生成代码时,它的注意力被「怎么写出正确代码」占满。当它需要判断「是否该停下来汇报」或者「目前方向对不对」时,缺少一个独立的审视视角。这就是为什么Agent经常做完3件事就停下来,它没有外部信号告诉自己「继续做第4件」。

跑着跑着风格突变也是同一个原因。模型在多轮交互中积累了上下文偏移,但自己没有察觉。它不知道自己从前面的严谨工程师变成了后面的胡说模式,因为没有外部裁判在喊停。

二、M3 Agent Team的解法:把裁判和选手拆开

MiniMax M3背后的Agent Team架构,做了一件看起来简单但实际效果极好的事情:把Leader、Worker、Verifier三个角色彻底分离。

Leader负责理解目标、拆解任务、调度资源。你发一条指令,Leader不是自己去干,而是先想清楚要干什么、分几步、需要哪些工具。然后它把具体任务派给Worker。

Worker只负责干活。不同Worker有不同的工具集和上下文窗口,有的擅长写代码,有的擅长查资料,有的擅长处理文件。它们不需要判断方向对不对,只需要把手上的活干完。

Verifier负责验收,而且它的工作方式不是温和地检查,它专门和Worker唱反调。Worker做完了,Verifier开始挑毛病。挑出问题,打回重做。这个对抗循环不是一次性的,它会反复迭代,直到Verifier挑不出毛病为止。

三、状态机引擎:比模型自觉更靠谱的东西

Agent Team最巧妙的设计不是角色分离本身,而是它怎么管理这个对抗循环。

原文中提到了一个关键细节:「这个对抗循环不靠模型自己判断什么时候该停,底层有一套状态机引擎在管。」这是整篇文章最应该被放大的一条信息。

大多数AI编程工具出问题的根源是,它们让模型自己判断什么时候该做什么。但模型擅长的是生成文本,而不是流程控制。你让一个写代码的模型去判断「我该继续还是停下来」,就像让一个钢琴家去操作红绿灯,都能干,但都不是本职工作。

状态机引擎做的事情很简单:用确定性的代码流程来代替模型的不确定性判断。Leader派活 -> Worker执行 -> Verifier验收 -> 不合格则重做 -> 合格则继续。这个循环的每一步都有明确的状态转换条件,不需要模型去「猜」下一步。底层的确定性外壳,罩住了上层的非确定性内核。

实际体验上也印证了这一点。你发一条消息,M3秒回确认,同时后台多个Worker已经并行跑起来了。中途你追加一个新需求,Leader当场响应,后台任务不停。这种流畅感不是来自模型更快了,而是来自流程管理的确定性。

四、这套架构对你意味着什么

如果你正在构建或使用AI编程工具,M3 Agent Team的架构至少提供了三条可以直接借鉴的经验。

第一,不要相信模型的自觉性。无论模型多强,让它同时扮演执行者和裁判者一定会出问题。把角色拆开,给每个角色明确的职责边界,比调优Prompt效果要好得多。

第二,用确定性逻辑管住非确定性输出。状态机引擎的价值不在于它多聪明,而在于它足够笨,笨到不会出错。流程控制交给代码,内容生成交给模型,各管各的。

第三,并行不是靠模型能力,而是靠架构设计。当Leader收到新需求时能够不中断已有Worker,这需要前置的任务拆分和上下文隔离设计。如果每个任务共享同一个上下文窗口,没法做到真正的并行。

五、Agent工程的下一个进化方向

M3的权重和技术报告将在十天内开源。届时,全球开发者可以拿到完整的Agent Team实现细节。

从行业视角看,Agent Team的「裁判与选手分离」架构可能标志着AI Agent工程的一个重要拐点。过去两年,Agent的进步主要集中在模型的智能能力上,更强的推理、更长的上下文、更准的代码生成。但M3这件事说明,当模型能力赶上之后,决定Agent好用不好用的,可能不是模型本身,而是围绕模型搭建的工程架构。

如果说上一个阶段是「怎么让模型更聪明」,下一个阶段可能是「怎么让模型团队更高效」。

而那个状态机引擎,也许就是Agent工程从「实验室玩具」走向「生产工具」的关键螺丝钉。

© 版权声明

相关文章

暂无笔记

您必须登录才能记录笔记!
立即登录
none
暂无笔记...