
库克在WWDC26上的告别只说了200多字,没有煽情,没有长篇大论,就是简单一句「各位的创造力将继续为人们带来改变」。但在他身后,苹果留下了一个完全重做的Siri。与其说这是Siri的升级,不如说苹果终于把Siri做成了一个真正的AI Agent。
发布会上演示的那些场景。用户对着相机拍一盘菜算热量、让Siri从信息App里翻聊天记录找地址、一键规划途经朋友家的路线,每一个单独看都像功能点,但串起来看,苹果在做的这件事,行业内有个更准确的名字叫设备端Agent化。
一、Siri不再只是语音助手
苹果给新一代Siri取了个新名字叫「Siri AI」。名字变化背后是定位的根本性转变。以前的Siri是一个语音交互界面,你问它天气,它告诉你今天多少度。现在的Siri是一个具备自主行动能力的AI系统。
怎么理解这个区别?语音助手是被动的,你问一句它答一句。Agent是主动的,你说「帮我安排观赛派对」,它能自己查询赛程、策划菜单、找聊天记录里女儿提过的甜品、生成完整方案、然后起草邀请消息让你确认发送。整个过程用户只需要表达意图,Siri自己完成信息检索、逻辑推理、跨App操作。
这才是Agent化的本质:从信息查询工具,升级为意图执行引擎。
二、五大能力拆解,Agent骨架清晰可见
苹果公布了Siri AI的五大核心能力:个人上下文理解、App操作、屏幕感知、图像理解、广泛世界知识。拆开看每一条,都是在补一个AI Agent必需的组件。
个人上下文理解相当于Agent的「记忆系统」。它能读懂你信息App里的聊天记录、照片库里的人物关系、日历上的日程安排。不是简单读取,而是理解这些信息之间的关联,知道你女儿提过椰子饼干、知道Jeff搬家了、知道你和朋友约了世界杯观赛。
App操作是Agent的「行动系统」。Siri可以直接操作Safari、邮件、日历、电话、信息、照片等原生App,还能通过App工具箱调用第三方工具。这意味着Agent的执行边界不只是「回答问题」,而是「完成任务」。
屏幕感知和图像理解是Agent的「感知系统」。相机对着一盘菜就知道热量,对着账单就能分摊金额,打开一张照片就能识别这是哪个海滩。Mac上框选屏幕内容就能让Siri处理,这些能力让Agent不再依赖用户用语言描述环境,而是直接感知环境。
五大能力合在一起,就是一个接近完整的AI Agent架构:感知→理解→决策→执行。以前的Siri只有「理解」这一环,现在补齐了其他四环。
三、借Gemini的模型,做自己的Agent
这次WWDC26最被低估的信息,可能是苹果和谷歌的合作。苹果引入了Gemini系列模型的技术来打造新一代苹果基础模型。这在苹果历史上很少见。一家以「全栈自研」为信仰的公司,在AI模型这个核心组件上选择了合作。
仔细想想这个选择很聪明。做AI Agent的难点从来不在模型本身,而在于系统集成。模型的能力可以被API化,但Agent要真正好用,需要调用系统级的能力,屏幕内容、App状态、用户数据、硬件传感器。这些恰恰是苹果的优势。谷歌有Gemini但没法深度控制Android生态的每一层,OpenAI有GPT但根本不碰硬件。苹果借Gemini的模型能力,把自己硬件+系统+生态的优势加上AI引擎,打了一套组合拳。
核心矛盾:模型可以外借,但系统集成能力是买不来的。苹果选了一个务实路线,模型合作,系统自研。
四、给AI产品经理的三个启示
看完WWDC26的Siri AI发布,有三点值得AI产品经理关注。
第一,Agent的入口之争正在从云端沉到设备端。OpenAI把Agent放在云端,用户通过网页或API调用。苹果把Agent放在设备上,通过系统级整合直接触达用户。两种路线各有优劣,但对消费场景来说,设备端的响应速度和隐私保护有明显优势。
第二,「系统级AI」是比「模型能力」更深厚的护城河。苹果没有在发布会上比拼模型的参数、benchmark分数,而是反复演示Siri如何在信息、邮件、日历、相机之间穿梭。对产品经理来说,这提醒了一个事实:用户感受到的AI价值,更多来自AI与产品的整合深度,而非模型本身的强大程度。
第三,Agent的产品化关键是「渐进式落地」。苹果没有一上来就说Siri能取代一切。它先做五件事:记住你的上下文、看懂屏幕上的内容、操作你常用的App、识别图像、查询知识。这五件事单独看都不算革命性,但组合在一起,用户的使用习惯就悄悄变了。从「我问你答」到「我表达你执行」,这个转变不是靠一个杀手功能实现的,是靠一个又一个场景的累积。
库克的时代即将落幕,但苹果在AI Agent这条路上,可能才刚刚开始。

