星海图CEO晒出数据账单,一块钱数据配十块算力

24小时AI快讯13小时前发布 changgong
150 00

每日AI新闻

星海图在北京的开发者大会上做了一件很少见的事情——CEO高继扬把具身智能的”成本家底”全摊在了桌面上。从数据采集的单价到数据与算力的投入比例,再到百万小时数据计划的总预算,这些数字在公开场合几乎是第一次被说透。

具身智能行业喊了两年”缺数据”,但缺的究竟是什么数据?采集数据的真实代价是多少?为什么数据成本和算力成本要放到一起看?高继扬的回答,把这些问题从口号拉到了账本上。

一、CEO高继扬的数据消费观

高继扬在演讲中提到,外界过去对星海图的判断一直在变——2024年说它是硬件公司,2025年又说它是数据公司。他自己的回答是:星海图做的所有事,都围绕具身智能生产力和具身智能基础模型展开。

这话乍听像套话,但他随后披露的数据给这句话做了具体注脚。星海图的战略里,数据不是配角也不是主角,而是”整机智能”里和算力并列的核心投入项。高继扬把数据成本和算力成本放在一起,提出了一个叫“智能总成本”的概念。

核心判断:具身智能行业不应该只看数据单项成本,要算总账。算力投入远比数据采集贵得多。

二、一块钱数据配十块钱算力

高继扬公布的账本是这样的:在星海图的实践中,数据成本和算力成本的比例至少是1:10。采一块钱的数据,要用十块钱的算力去训练,才能把模型训明白。

具体到单价,Human centric data(人体演示数据)成本约为50到100元每小时,Robot centric data(机器人自采数据)算上人工和设备折旧,大约是250元每小时。综合算下来,百万小时数据的采集总投入约在1亿到2亿元人民币之间。

这个数字乍看很大,但放在大语言模型的语境里就不一样了。高继扬提到,大语言模型训练需要每年几亿美元级别的算力支出。相比而言,数据投入虽然绝对数额高,但在整个”智能总成本”里占比并不大。

如果说自动驾驶的瓶颈一度是算力,那么具身智能的瓶颈同样是算力——只是很多人把目光放在了数据的单一成本上。数据其实可以采集,但训练数据的算力才是真正的大头。这个1:10的比例,在行业中第一次把具身智能的经济模型说清楚了。

三、百万小时到千万小时的路线图

为了让人理解百万小时的数据量级意味着什么,高继扬做了个类比:一个人从出生到18岁,醒着并与物理世界交互的总时长大约是10万小时。100万小时相当于10个人类的学习时间,1000万小时相当于100个人类的学习时间。

他还提到另一个类比:如果把大语言模型的训练Token折算到具身基础模型训练小时数,量级也在百万小时到千万小时之间。他判断,在这个区间内,某个临界点上训练出的具身基础模型,可能会带来能力上的明显跃升。

星海图与北京亦庄共建的”亦数智能”平台正承担着数据采集任务。高继扬披露,采集方式分两种:外包采集针对特定场景和任务,雇佣人员进行专项采集;众包采集更接近”生产伴随式采集”,让人在日常工作中佩戴设备,把操作过程记录成数据。

后者值得单独拎出来说。自动驾驶行业靠众包采集了海量道路数据,具身智能正在走同样的路径。高继扬明确判断,数据供应链正在成为具身智能竞争的新变量。

四、数据供应链,中国具身智能的第二条护城河

高继扬在现场提出了一个可能被很多人忽略的判断:过去外界更多关注中国在硬件和零部件供应链上的优势,但从今年开始,数据供应链的优势也会凸显出来。

硬件供应链和数据供应链叠加,将成为未来具身智能竞争中的重要变量。这个判断的底层逻辑是:中国拥有全球最密集的制造业场景和最大规模的劳动力人口,这两者正是具身智能数据采集的天然土壤。

高继扬还透露,星海图当前预训练基本全部使用真实数据。至少在百万小时数据规模之前,公司看不到仿真数据的必要性。这不是说仿真数据没有价值,而是在达到一定数据量级之前,真实数据的”效率密度”更高——它天然包含动作、对象、场景和本体四个维度的完整信息,仿真数据在这些维度上难免有信息损失。

星海图已经在GOD数据集上验证了这个逻辑。500小时、10TB的数据集下载量突破60万次。下一个目标是100万小时,再下一个是1000万小时。如果数据供应链真如高继扬所说会成为中国具身智能的第二条护城河,那么这条河的宽度,取决于今天有多少人在真实场景里采集真实数据。

© 版权声明

相关文章

暂无笔记

您必须登录才能记录笔记!
立即登录
none
暂无笔记...