斯坦福双博士联手,VLOA给具身智能装上预演引擎

每日AI快讯14小时前更新 changgong
255 00

每日AI新闻

VLA大行其道的当下,有个团队非要往这套模型里多加一个字母,O,让机器人先”想”清楚物体怎么动,再动手。这看似文字游戏,实则指向具身智能技术路线的一次关键转向。

这个团队就是RoboScience机器科学。两位创始人,一个斯坦福博士毕业,师从机器人学界泰斗;另一个同样斯坦福出身,在苹果带过AI平台。他们今年又站上了ICRA的领奖台。

一、VLA到底卡在哪里

先说结论:VLA能看懂能听懂,但缺少对未来状态的推演能力。

你让一个VLA模型”把杯子放到托盘左边”,它能识别杯子在哪、理解你的指令,抬臂、接近、抓取,一套动作行云流水。但如果托盘上多了个障碍物,或者杯子换了个位置,它就懵了,动作开始乱抖,抓不住、放不准,业界管这叫「动作幻觉」

这就像一个人被蒙上眼睛,别人给你口述了房间布局,然后让你走。你能走出第一步,但走几步之后,脑子里的”环境地图”就跟现实对不上了。

VLA的短板就在这里。它没有在动手之前,先在脑子里推演一遍”杯子会怎么动””我的手碰到杯子后会发生什么”。它直接从”看懂了”跳到”动手了”,跳过了物理世界的模拟预测。这在环境不变、物体不动的实验室里够用,一进真实世界,泛化能力直线下降。

二、多了一个O,多了一个思考步骤

RoboScience的方案是VLOA,Vision-Language-Object-Action。多出来的这个Object,指向的是「Object Trajectory」,物体的连续3D点云轨迹

这个接口把整个过程拆成了三步:先看懂环境和指令(V+L),然后预测物体的状态变化轨迹(O),最后再决定怎么动(A)。

关键在第二步。机器人在动手之前,会先在脑子里建一个物体的运动模型,杯子被抓起后会抬升多少、旋转多大角度、受重力影响会不会偏移。这套预测不是生成一整段视频(那种”视频世界模型”的做法的确算力消耗太大),而是只预测和任务相关的物体轨迹,信息密度高得多。

打个比方:VLA是蒙眼走,边撞边调整;VLOA是闭眼前先看一遍路线图,脑子里有张地图再出发。后者多了一步,但稳得多。

三、不是口号,拿数据说话

这套方案已经有两篇ICRA最佳论文级别的成果背书。

D(R,O)Grasp解决的是跨灵巧手泛化:同一套模型适配3指、4指、5指,从软体到手爪全都兼容,平均抓取成功率87.53%,后续优化到94.83%。Bi-Adapt解决的是双臂协同中的新物体适应,用少样本甚至零样本的方式完成操作迁移。

还有一个容易被忽略的点:RoboScience自建了仿真平台RoboMirage。这个平台每天产出约十万小时级别的操作数据,以物体点云轨迹为核心。数据量越大,Object Trajectory的质量越高,这是一个很明显的飞轮效应。

他们去年还展示过一段一镜到底的家具拼装视频。机器人读说明书、识别零件、插接旋转、多步骤拆解组装一气呵成。中间有结构被人为拆掉,系统照样继续完成后续步骤。这种对场景变化的适应力,不是单纯堆参数就能做到的。

四、为什么是这支团队在做这件事

VLOA这条路门槛不低。模型能力要够顶尖,工程化背景要足够扎实,还得有真实场景的数据闭环不断喂养。

邵林,斯坦福博士,师从Jeannette Bohg和Leonidas Guibas,ICRA最佳论文得主。田野,中科大物理本科,斯坦福AI Lab,曾任苹果AI Platform技术负责人,一手打造了被业内称为”苹果的PyTorch与CUDA”的AI基础设施。一个管学术高度,一个管工程落地。这套组合在当前的具身智能创业圈里,确实少见。

资本市场也在用脚投票。京东、商汤、达晨、招商局创投、零一创投、普华都已入场。京东自家的物流仓储场景,和RoboScience的零样本物体适应能力,协同效应相当明显。

今年他们计划量产标准化机器人本体。从论文到量产,中间有无数个坑。但至少从技术路线的选择来看,VLOA比VLA更务实,这个判断,有数据和实验依据。

© 版权声明

相关文章

暂无笔记

您必须登录才能记录笔记!
立即登录
none
暂无笔记...