
用了几个月AI Agent,你会发现一个很让人恼火的问题:它记不住。你跟它聊到第三轮,它就已经忘了第一轮你说的关键信息。更别提跨天的长任务了,做个市场调研方案,第二天回来它跟失忆了一样。
这不是模型能力不够,问题是记忆系统没跟上。行业里管这叫”Agent的金鱼记忆”,每隔几轮对话就得重新喂一遍上下文,效率低得让人抓狂。
6月5日,华为云在INSPIRE创想者大会上扔出了一颗特别的炸弹。CEO周跃峰发布了一套分层Agentic记忆存储方案AMS,核心思路很直接:用硬件来解决Agent的记忆问题,不再沿着软件层继续修修补补,而是彻底从底层架构上动刀。
一、Agent的”七步忘”困境,卡住了整个行业
先说说这个困境到底是什么。现在的Agent产品,C端的智能助手也好、B端的企业智能体也罢,用得越多越觉得它”笨”。推理能力其实不差,关键是记不住上下文。你让它帮你搜集竞品信息、整理研究报告、跟踪项目进度,这类需要多轮交互的任务,它经常在做到一半的时候就把前面的信息丢了。
这个问题的根源在架构层面。基于Transformer的模型处理长上下文时,计算成本增长得很快。KV Cache越堆越大,推理速度越跑越慢,成本也跟着涨上去。现有的解决方案主要围绕软件层做文章,上下文压缩、缓存策略、RAG检索增强。这些方法都在做一件事:用有限的缓存空间装更多的东西,天花板很明显。
华为云给出的判断是,这条路走不远。他们推出的AMS Agentic记忆存储方案,背后是NPU直通CMS硬件。这相当于给Agent专门做了一个”硬盘级”的记忆空间,不是软件层临时缓存能比的。硬件直通带来的好处是:Agent可以真正”记住”东西,不需要每次推理都重新加载上下文。
二、NPU直通硬件,华为云的方案有多硬核
具体来说,华为云这套AMS方案有几点值得深挖。
第一是容量。PB级的记忆空间。目前主流Agent的上下文窗口最多也就百万Token级别,PB级意味着Agent理论上可以记住近乎无限的交互历史。你昨天跟它聊的方案细节,今天它能直接调出来。第二是架构。KV Cache做了分层池化,推理成本降低的同时还能支持天级长程任务。这就不是”聊几轮就忘”的Agent了,是能做跨天协作的数字员工。第三是性能。NPU直通CMS硬件,计算单元和存储单元之间开了条”高速公路”,不需要经过CPU中转,时延和带宽都比现有方案高出不止一个数量级。
华为云计划9月开始部署这套系统。从发布到上线有三个月的时间窗口,给企业客户消化和评估。考虑到这套方案涉及硬件层面的变更,这个周期也算合理的。
三、对产品经理意味着什么
这件事对AI产品经理的意义,可能比表面上看到的要大得多。
第一,Agent的”长程记忆”一直被认为是软件层的工程问题。大家普遍的想法是:只要把KV Cache优化好、RAG做得精细,记忆问题就能解决。华为云这一手等于在说:记忆的本质是存储问题,存储问题用硬件解决更彻底。如果这个判断被验证是对的,未来Agent产品的架构设计思路都要跟着调整。产品经理在做Agent规划时,需要考虑的维度变了:不光是”用哪个模型、配多大窗口”,还有”记忆怎么分层、怎么持久化、硬件层面的依赖怎么选”。
第二,云厂商之间的竞争维度正在被拉宽。以前各家比的是算力价格、模型接入数量,现在开始比”Agent运行环境”的成熟度。华为云的AMS方案如果真能实现天级长程记忆,对做B端Agent产品的PM来说,选云平台的决策权重就需要重新排序了。一个能记住东西的云,和一个记不住东西的云,对产品体验的影响是本质性的。
第三,这件事给出了一个更大的趋势信号:当软件优化遇到天花板,硬件是破局的方向。不仅仅是记忆,推理加速、模型训练都有类似的逻辑。产品经理不需要理解NPU和CMS硬件的技术细节,但需要对”硬件层解决方案开始进入AI产品栈”这个趋势保持敏感。
回到这次发布本身。华为云在INSPIRE大会上没有追逐C端AI应用的热潮,而是选择了一条更”重”的路,用硬件来夯实Agent的基础能力。Agent要真正变成”能干活的数字员工”,记忆能力是绕不过去的一道坎。AMS方案能不能在9月真正落地,落地后的实际体验怎么样,这些都得等真机实测后才知道。但如果华为云的判断是对的,记忆瓶颈需要从硬件层面突破,那现在就是给Agent”装上硬盘”的起点。

