智源大会释放新信号，世界模型并非更大的LLM

24小时AI快讯2个月前发布 changgong

2.3K 00

文章目录

一、世界模型和LLM，根本不在一个维度上
二、四条技术路线揭示了一个残酷事实
三、22岁掌舵者的野心，世界模型真实力
四、这对AI行业的每个从业者意味着什么

每日AI新闻

智源大会上有一条信息被严重低估了，智源研究院首次公开了正在训练中的世界基座模型”悟界·Physis-v0.1″，并梳理了四条技术路线。消息很快淹没在”200位AI专家齐聚”的宏大叙事里。

但这是整场大会最值得深挖的信号。

因为多数人把”世界模型“误读成了”多模态大模型的升级版”，以为就是能看图、能看视频的LLM。这个理解偏差的结果，远比想象中严重。

一、世界模型和LLM，根本不在一个维度上

先看一段关键发言。清华大学教授朱军在圆桌对话中说了一句看似平淡的话：“视频原生模型的Scale Up路径刚刚开始，后边还有很大一块要去探索的地方。”

重点不在”刚刚开始”，在“视频原生”四个字。

LLM处理的是语言，一段文本，一个token接一个token地预测下一个最可能的词。这是统计层面的模式匹配。模型不是”理解”了这句话的含义，而是从数万亿个训练样本中学到了”这种上下文后面通常跟什么词”。

世界模型处理的是物理世界。它要理解的是，一个苹果从桌上掉下来，它应该往下落，而不是往上飞；一个人推门，门应该朝推的方向开，而不是朝反方向弹回来。

这不是统计问题，是因果问题。

智源发布的Physis-v0.1明确提出了四大核心能力：物理一致性、动作灵活性、长程可推演、通用泛化性。你看，排在第一位的不是”多模态”或”大参数”，而是物理一致性，模型对物理规律的理解必须自洽。

这是LLM做不到的。GPT-5或Fable 5能写出完美的物理题答案，但它并不”知道”一个球在斜坡上为什么会加速下滑。它只是从文本中学会了”牛顿第二定律F=ma”这个公式拼接。你换个没见过的场景描述，它就开始编造。

二、四条技术路线揭示了一个残酷事实

智源为Physis-v0.1规划了四条技术路线。注意，不是一条，是四条。这本身就说明了一件事：世界模型到底该怎么做，全行业都还在摸索。

LLM时代的技术路径是高度收敛的，Transformer架构+Scaling Law+RLHF，全世界都用这一套。世界模型时代的技术路径正在发散，视频原生、物理仿真、神经科学启发、具身智能驱动……每条路线的取舍都不一样。

这背后有一个更本质的问题：语言是人类特有的能力，但物理世界是所有智能体共享的。

王坚在会上说了一段值得回味的话。他分析AI问题时始终放在一个三框架下：动物智能、人类智能和机器智能。他说：”你要给自己一个可以超出现有框架的思考框架。”

世界模型恰恰就是跳出”人类语言”这个框框，去构建一个更底层的认知框架，让AI理解万物运转的规律，而不仅仅理解”人类怎么描述万物运转”。这个差异，决定了中国AI是否能在下一轮竞争中拿到主动权。

三、22岁掌舵者的野心，世界模型真实力

Physis-v0.1的研发团队有两个有意思的背景。一是它的带头人陈博远只有22岁，北京大学本科生，同时也是智源研究院行为世界模型创新中心的负责人。二是在大会的InnoVibe共创场，同是00后的香港大学博士生任旭滨展示了他们的nanobot和CLI-Anything项目，用4000行代码为AI Agent提供原生命令行接口。

这两个信息放在一起看，能读出更多东西。

智源把”行为世界模型创新中心”交给一个22岁的人，说明两个判断：第一，世界模型的研究还没有成熟的范式，年轻人不受学术惯性的束缚反而更有优势；第二，智源不只是做研究，它在赌下一代人。

再看技术实力。Physis-v0.1的核心定位是”预测下一个物理状态”，给它当前的世界状态，它推演出下一个时间点世界会变成什么样。这和LLM的”预测下一个token”有表面上的相似性，但实质完全不同。Token是抽象的符号，物理状态是真实世界的量度，位置、速度、温度、密度……这是把AI从”文本模拟器”变成”世界模拟器”的关键一步。

已经发布的同类模型，从Sora到Genie 2，都没有真正解决物理一致性问题，它们经常”忘记”物体应该持续存在、运动应该连续。Physis-v0.1还在训练中，但方向已经明确。

四、这对AI行业的每个从业者意味着什么

回到开头那个误读。如果你以为世界模型只是”更大的多模态LLM”，你可能会错过未来三到五年的核心机会。

对我这样的AI产品经理来说，这个区别带来的最直接的问题是：产品的交互设计规则要变了。

LLM时代，交互的核心是文字和指令，你问什么模型答什么，一切依赖语言这个窄通道。世界模型时代，交互的核心是场景和行为，模型理解了你的物理环境，可以直接在这个环境里执行操作。这意味着产品设计的重心从Chat对话转到了具身交互、空间理解、动作规划。

刘知远在大会圆桌上点明了另一个维度：”Anthropic之所以成功，是找到了代码这样一个非常重要的垂直方向。”他的言外之意是：世界模型也需要找到一个足够垂直的落地场景，形成数据闭环，才能加速迭代。

哪些场景最先受益？具身机器人、自动驾驶、工业仿真、数字孪生……这些领域的共同特征是：必须理解物理世界，纯语言模型不够用。

而海淀区配套的90亿元产业资金和”模型券”政策，本质上就是在为这个新赛道铺基础设施。当模型成本被补贴打下来，创业团队只需要聚焦世界模型的应用层创新，而不用在算力焦虑上内耗。

整场智源大会看下来，最有价值的不是某个具体的成果，而是王坚那句”中美看到的是同一片大海”。如果六年前这个判断还有争议，那么今天，当中国的研究机构已经在世界模型这个全新赛道上和全球并肩起跑时，这句话的分量确实不一样了。

世界模型不是LLM的升级版。它是一个新物种。而智源大会告诉我们的，恰恰是”这个新物种的雏形已经来了”。

若无特殊声明，本站所有文章版权均归「PMKG AI知识库」原创和所有，未经许可，任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容，或在非我站所属的服务器上建立镜像。否则，我站将依法保留追究相关法律责任的权利。

谷歌发推出Gemini 3.1 Flash Live实时语音模型

24小时AI快讯 # Gemini # Gemini 3.1 Flash Live预览版

4个月前

04.7K0

WWDC提了一个醒，AI不再值钱了

24小时AI快讯 # AI产品 # AI资讯 # WWDC

2个月前

02.8K0

营收涨却裁人，GitLab的AI转型是一盘什么棋？

24小时AI快讯 # AI # AIwashing # AI资讯

2个月前

02.9K0

AI「同事」上线了，谁来当它的产品经理

24小时AI快讯 # AI Agent # AI资讯 # OpenAI

2个月前

03.8K0

暂无笔记

您必须登录才能记录笔记！

立即登录

暂无笔记...

智源大会释放新信号，世界模型并非更大的LLM

一、世界模型和LLM，根本不在一个维度上

二、四条技术路线揭示了一个残酷事实

三、22岁掌舵者的野心，世界模型真实力

四、这对AI行业的每个从业者意味着什么

Claude最强模型76小时下线，你的依赖该松绑了

火箭公司IPO，华尔街为什么为执行力买单？

相关文章

谷歌发推出Gemini 3.1 Flash Live实时语音模型

WWDC提了一个醒，AI不再值钱了

营收涨却裁人，GitLab的AI转型是一盘什么棋？

AI「同事」上线了，谁来当它的产品经理

暂无笔记

智源大会释放新信号，世界模型并非更大的LLM

一、世界模型和LLM，根本不在一个维度上

二、四条技术路线揭示了一个残酷事实

三、22岁掌舵者的野心，世界模型真实力

四、这对AI行业的每个从业者意味着什么

Claude最强模型76小时下线，你的依赖该松绑了

火箭公司IPO，华尔街为什么为执行力买单？

相关文章

谷歌发推出Gemini 3.1 Flash Live实时语音模型

WWDC提了一个醒，AI不再值钱了

营收涨却裁人，GitLab的AI转型是一盘什么棋？

AI「同事」上线了，谁来当它的产品经理

暂无笔记

欢迎来到「PMKG AI知识库」

欢迎来到 PMKG AI知识库