云厂商在抢芯片定义权,英伟达在失去什么

AI快讯1天前发布 changgong
335 00

每日AI新闻

你有没有发现一个奇怪的现象。

一边,英伟达的GPU依然供不应求,H100、B200的排队周期动辄几个月。另一边,Google推出了第五代TPU,亚马逊Trainium2开始大规模部署,Meta把自研芯片写进了AI战略的核心。

这些公司,几年前还是英伟达的大客户。现在,它们自己在设计芯片。

这不是技术实验,这是一场产业链的权力转移。芯片产业的游戏规则,正在被悄悄改写。

一、从买家到玩家

芯片产业的传统逻辑很简单:芯片公司设计产品,客户来买。英伟达做GPU,卖给云厂商;高通做手机SoC,卖给手机厂;英特尔做CPU,卖给PC和服务器厂商。

这种模式持续了几十年,一直很稳定。因为它有很高的门槛,芯片设计动辄几亿美元投入,需要几百人的工程师团队,需要积累多年的IP和生态。

但AI时代改变了这个门槛的计算方式。

当一家云厂商的AI算力预算达到每年百亿美元级别时,自研芯片的投入就成了”划算的”。Google TPU的研发费用对Google云来说,只是几周的GPU采购预算。

核心变化在这里:以前是”有没有能力做”的问题,现在是”不做损失多少”的问题。当规模大到一定程度,定制化的成本优势就会碾压通用方案。

云厂商从买家变成玩家,不是因为它们突然学会了做芯片,而是因为生意的体量让这件事值得做。

二、英伟达的护城河正在被什么侵蚀

英伟达的护城河是GPU加CUDA加网络加系统交付加开发者生态。这个组合在通用计算领域确实强大,但有几个结构性弱点正在被放大。

第一个弱点是推理场景的崛起。

训练需要的是通用并行计算能力,GPU天生适合。但推理不一样。推理任务高度重复、规模庞大、对成本和功耗极其敏感。专用芯片在推理场景下有天然优势。Google TPU在推理上比同价位GPU快40%到60%,亚马逊Trainium的性价比也明显优于通用GPU。

随着AI应用从”训练模型”转向”运行模型”,推理算力的占比会越来越大。这个趋势对通用GPU不利,对定制ASIC有利。

第二个弱点是英伟达的定价权。

因为英伟达在高端AI GPU市场占据80%以上的份额,它的定价策略对云厂商的利润率有直接影响。一台搭载8颗H100的服务器,成本中GPU占到70%以上。云厂商通过自研芯片降低对英伟达的依赖,本质上是在夺回自己的利润空间。

第三个弱点是生态的可替代性。

CUDA生态确实强大,但它不是不可逾越的。PyTorch已经成了AI框架的事实标准,而PyTorch对底层硬件做了抽象,开发者写的代码理论上可以在英伟达GPU、AMD GPU、Google TPU甚至定制ASIC上运行。生态的锁定效应正在被框架层的抽象化所削弱。

这些因素叠加在一起,英伟达的地位不会一夜崩塌,但它的绝对主导权正在被一步步侵蚀。

三、定制ASIC的快速崛起

博通和Marvell是这个趋势最直接的受益者。它们不做通用芯片,而是帮大客户设计定制芯片。

Google的TPU是博通参与设计的,Meta的自研AI芯片也是。Marvell则在数据中心连接芯片和定制计算芯片上布局多年。这些公司没有英伟达那样的品牌光环,但它们的增长速度正在证明一件事:定制化是趋势,不是例外。

定制ASIC的优势很清楚。

第一,成本优势。专用芯片去掉了一些不需要的功能,芯片面积更小、功耗更低、成本更低。在百万级部署规模上,每颗芯片省下几十美元,加起来就是几亿美元。

第二,软硬协同优化。云厂商对自己的工作负载最了解,它们可以针对自己的模型架构、推理模式、数据处理流程来设计最优的芯片方案。

第三,供应链控制力。不把算力命脉完全交给一家供应商,这个诉求在大国科技竞赛的背景下变得越来越重要。

但定制ASIC也有代价:开发周期长,通常18到24个月,灵活性不如通用GPU,而且一旦设计定型就很难适应新的模型架构。所以未来芯片市场不会是”取代”的关系,而是”分化”的关系,训练和快速迭代用通用GPU,大规模推理和稳定场景用定制ASIC。

四、这对AI产品经理意味着什么

芯片产业的权力转移,表面上是巨头之间的博弈,但每一个AI产品的开发者和决策者都会感受到它的影响。

第一个影响是算力选择变多了。

以前做AI产品,算力基本只有英伟达GPU一个选项。现在Google Cloud提供TPU,AWS提供Trainium和Inferentia,Azure提供Maia。不同芯片适合不同的工作负载。产品经理需要了解这些差异,才能在技术选型时做出更优的决策。

第二个影响是成本结构会更透明。

定制ASIC的竞争会推动AI算力价格下行。推理成本下降意味着更多的AI应用可以跑起来。这对于做AI应用层产品的团队来说是好事,门槛更低、用户规模可以更大。

第三个影响是不要把所有赌注押在单一架构上。

如果你的AI产品严重依赖某一种GPU的特定能力,一旦供应链出问题或者成本结构变化,你会非常被动。多架构兼容、框架层面的抽象隔离,应该成为AI产品架构设计的基本原则。

芯片产业的这场权力转移不会在一年内完成,但它正在发生。英伟达仍在巅峰,但超级客户们已经开始夺回自己的话语权。对于做AI产品的人来说,看懂这场博弈的走向,比看懂某一颗芯片的性能参数重要得多。

已经看到这儿了,那就点赞、分享、推荐三连吧!

如果想第一时间收到推送,也可以给我个星标。

谢谢你看我的文章,我们,下次再见。

© 版权声明

相关文章

暂无笔记

您必须登录才能记录笔记!
立即登录
none
暂无笔记...