斯坦福双博士联手，VLOA给具身智能装上预演引擎

24小时AI快讯2个月前更新 changgong

2.7K 00

文章目录

一、VLA到底卡在哪里
二、多了一个O，多了一个思考步骤
三、不是口号，拿数据说话
四、为什么是这支团队在做这件事

每日AI新闻

VLA大行其道的当下，有个团队非要往这套模型里多加一个字母，O，让机器人先”想”清楚物体怎么动，再动手。这看似文字游戏，实则指向具身智能技术路线的一次关键转向。

这个团队就是RoboScience机器科学。两位创始人，一个斯坦福博士毕业，师从机器人学界泰斗；另一个同样斯坦福出身，在苹果带过AI平台。他们今年又站上了ICRA的领奖台。

一、VLA到底卡在哪里

先说结论：VLA能看懂能听懂，但缺少对未来状态的推演能力。

你让一个VLA模型”把杯子放到托盘左边”，它能识别杯子在哪、理解你的指令，抬臂、接近、抓取，一套动作行云流水。但如果托盘上多了个障碍物，或者杯子换了个位置，它就懵了，动作开始乱抖，抓不住、放不准，业界管这叫「动作幻觉」。

这就像一个人被蒙上眼睛，别人给你口述了房间布局，然后让你走。你能走出第一步，但走几步之后，脑子里的”环境地图”就跟现实对不上了。

VLA的短板就在这里。它没有在动手之前，先在脑子里推演一遍”杯子会怎么动””我的手碰到杯子后会发生什么”。它直接从”看懂了”跳到”动手了”，跳过了物理世界的模拟预测。这在环境不变、物体不动的实验室里够用，一进真实世界，泛化能力直线下降。

二、多了一个O，多了一个思考步骤

RoboScience的方案是VLOA，Vision-Language-Object-Action。多出来的这个Object，指向的是「Object Trajectory」，物体的连续3D点云轨迹。

这个接口把整个过程拆成了三步：先看懂环境和指令（V+L），然后预测物体的状态变化轨迹（O），最后再决定怎么动（A）。

关键在第二步。机器人在动手之前，会先在脑子里建一个物体的运动模型，杯子被抓起后会抬升多少、旋转多大角度、受重力影响会不会偏移。这套预测不是生成一整段视频（那种”视频世界模型”的做法的确算力消耗太大），而是只预测和任务相关的物体轨迹，信息密度高得多。

打个比方：VLA是蒙眼走，边撞边调整；VLOA是闭眼前先看一遍路线图，脑子里有张地图再出发。后者多了一步，但稳得多。

三、不是口号，拿数据说话

这套方案已经有两篇ICRA最佳论文级别的成果背书。

D(R,O)Grasp解决的是跨灵巧手泛化：同一套模型适配3指、4指、5指，从软体到手爪全都兼容，平均抓取成功率87.53%，后续优化到94.83%。Bi-Adapt解决的是双臂协同中的新物体适应，用少样本甚至零样本的方式完成操作迁移。

还有一个容易被忽略的点：RoboScience自建了仿真平台RoboMirage。这个平台每天产出约十万小时级别的操作数据，以物体点云轨迹为核心。数据量越大，Object Trajectory的质量越高，这是一个很明显的飞轮效应。

他们去年还展示过一段一镜到底的家具拼装视频。机器人读说明书、识别零件、插接旋转、多步骤拆解组装一气呵成。中间有结构被人为拆掉，系统照样继续完成后续步骤。这种对场景变化的适应力，不是单纯堆参数就能做到的。

四、为什么是这支团队在做这件事

VLOA这条路门槛不低。模型能力要够顶尖，工程化背景要足够扎实，还得有真实场景的数据闭环不断喂养。

邵林，斯坦福博士，师从Jeannette Bohg和Leonidas Guibas，ICRA最佳论文得主。田野，中科大物理本科，斯坦福AI Lab，曾任苹果AI Platform技术负责人，一手打造了被业内称为”苹果的PyTorch与CUDA”的AI基础设施。一个管学术高度，一个管工程落地。这套组合在当前的具身智能创业圈里，确实少见。

资本市场也在用脚投票。京东、商汤、达晨、招商局创投、零一创投、普华都已入场。京东自家的物流仓储场景，和RoboScience的零样本物体适应能力，协同效应相当明显。

今年他们计划量产标准化机器人本体。从论文到量产，中间有无数个坑。但至少从技术路线的选择来看，VLOA比VLA更务实，这个判断，有数据和实验依据。