千tps的万亿模型，速度正在重新定义智能

1.8K 00

文章目录

一、千tps不只是一个数字
二、速度换智能的底层逻辑
三、谁最需要速度？场景分层
四、从慢思考到快思考乘以多路径
五、小米的布局与行业的下一步

每日AI新闻

万亿参数模型跑出每秒1000个token，这件事到底意味着什么？大部分人看到的是快，是13秒代替6分钟的数据对比。但我觉得，更有价值的问题是：当推理速度跨过某个临界点，它改变的不只是等待时间，而是模型能做之事的边界。

一、千tps不只是一个数字

先看几个具体场景。在小米的演示中，UltraSpeed模式用13秒完成了一个复杂可视化大屏的生成，标准版需要6分15秒。13秒和6分15秒的区别，不是”快一点”的区别，这是”能不能等”和”值不值得等”的区别。

6分钟你大概会去做别的事，等回来看结果。13秒你就站在屏幕前等。这个差异听起来不大，但对于一个让AI帮你生成代码的开发者来说，意义完全不同。小米公告中提到的一组数据更能说明问题：在Coding场景中，推测解码的平均接受长度达到6.30，部分样本最高7.14，这意味着每次验证能一口气确认6到7个token。结构化任务天然适合这种模式，模型越”确定”，速度也越快。

但更重要的不是Coding场景本身。而是千tps带来的一个连锁反应：当推理足够快，模型就不再需要「一次猜对」了。

二、速度换智能的底层逻辑

传统的大模型推理逻辑是单路径的。你输入一个prompt，模型从头到尾token-by-token地生成，万一生成错了，等着输出完发现不对，你重新来一次。这是目前绝大多数AI应用的推理模式。慢不只是体验问题，它限制了模型的思考方式。

千tps改变的是什么？是让Best-of-N和Tree Search变得实际可用。如果你可以在相同的时间窗口内，让模型并行运行几十条推理路径，每条路径走不同的方向，后台自动验证纠错，最终筛选出最优的那个，这就是小米公告里说的「用速度换取思考深度」。

这不是理论推演。FP4量化将模型体积大幅缩减的同时保持了精度，DFlash推测解码解除了自回归的串行约束，TileRT的常驻内核引擎让GPU内部数据持续流转，这三项技术的叠加，让万亿模型在通用8卡GPU上跑出了以前只有定制芯片才能达到的推理速度。而定制芯片的问题是，它们是固定的、串行时代的思维。通用GPU上的极致优化，才是让速度变成可编程资源的关键。

三、谁最需要速度？场景分层

速度溢价到底值不值，完全看场景。

通用对话场景对千tps的感知最弱。你问ChatGPT一个问题，3秒和0.3秒回答，感觉差异有，但不会改变你用它做什么。这也是为什么DFlash在通用对话场景下接受率仍不高，因为语义发散、不确定性高，预留审核空间有限。

但Coding场景就完全不一样。开发者写代码时，等待是打断心流的最大成本。13秒出结果和6分钟出结果，决定了你是调试还是去倒杯咖啡。小米这次定价的策略很聪明：UltraSpeed API定价为标准版的3倍，但提供10倍的输出速度提升。场景越需要实时，越愿意付这个溢价。

量化交易信号生成、反欺诈风控拦截、手术辅助医疗影像分析，这些场景下的速度提升直接转化为业务价值的放大。小米列举的场景分类里，最让我关注的是医疗方向：在手术辅助中，AI更快的病灶分析能力可以为医生争取更多处置时间。

四、从慢思考到快思考乘以多路径

现在回到范式层面。过去一年，行业内部一直存在一个争论：大模型到底是该做大做到极致，还是该做快做到极致。这场争论背后有一个共同的隐性假设，快和聪明是两件事，你只能在它们之间做取舍。

小米这次的选择，提供了一条打破取舍的路径。快乘以多路径等于更聪明，这条路走得通。

当推理速度提升了10倍，你可以在模型端并行运行数十条推理路径。每条路径的思考时间不变，但组合起来，后台自行验证纠错的深度是单条路径无法比拟的。这就是速度换智能的本质，它不改变单次推理的质量，但改变了你能在单位时间内探索的空间。

这对AI产品经理意味着什么？意味着在设计应用时，「推理时间」不再是一个固定的性能参数，而是一个可以被交换的战略资源。你可以选择快，让用户获得实时反馈；也可以选择快中取慢，在同样的响应时间内让模型做更深的思考。千tps打开的是这种交换的可能性。

五、小米的布局与行业的下一步

小米选择了一条和Cerebras、Groq不同的路线。Cerebras走的是晶圆级集成，Groq走的是纯片上SRAM定制芯片，都是把硬件做贵、做专、做大。小米和TileRT走的是「通用GPU加极致系统优化」的路线。FP4量化加DFlash加TileRT定制编译，三者缺一不可。

这背后的判断很务实：如果可以在标准硬件上做出接近专用芯片的性能，就不需要依赖定制硬件的交付周期和成本。这对行业的长期影响可能更大，不依赖专用芯片的万亿模型推理方案，意味着更多公司有机会以可接受的成本接入近实时级别的推理能力。

当然，当前方案还有局限。通用对话场景的高接受率仍需优化，申请制说明推理资源仍然紧张。1000tokens/s的技术突破值得关注，但距离普惠应用还有一段路要走。不过，方向已经指明。速度能换来的东西，远不止于「快」。

若无特殊声明，本站所有文章版权均归「PMKG AI知识库」原创和所有，未经许可，任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容，或在非我站所属的服务器上建立镜像。否则，我站将依法保留追究相关法律责任的权利。

13人干翻Transformer！新架构SSA算力暴减千倍

24小时AI快讯 # AI大模型 # SSA架构 # Transformer

2个月前

03.7K0

Agent总掉链子？拆解M3的「裁判与选手」分工

24小时AI快讯 # AI Agent # AI资讯 # M3

2个月前

04.1K0

苹果iMessage有了AI智能体，WWDC前信号

24小时AI快讯 # AI智能体 # AI资讯 # iMessage

2个月前

03.5K0

ChatGPT融入Codex，默认即护城河十亿用户！

24小时AI快讯 # AI Agent # AI资讯 # ChatGPT

2个月前

01.8K0

暂无笔记

您必须登录才能记录笔记！

立即登录

暂无笔记...

千tps的万亿模型，速度正在重新定义智能

一、千tps不只是一个数字

二、速度换智能的底层逻辑

三、谁最需要速度？场景分层

四、从慢思考到快思考乘以多路径

五、小米的布局与行业的下一步

微信AI重塑小程序，开发者的竞争维度彻底变了

「1个框架3种标签」，让AI运营不再翻车

相关文章

13人干翻Transformer！新架构SSA算力暴减千倍

Agent总掉链子？拆解M3的「裁判与选手」分工

苹果iMessage有了AI智能体，WWDC前信号

ChatGPT融入Codex，默认即护城河十亿用户！

暂无笔记

千tps的万亿模型，速度正在重新定义智能

一、千tps不只是一个数字

二、速度换智能的底层逻辑

三、谁最需要速度？场景分层

四、从慢思考到快思考乘以多路径

五、小米的布局与行业的下一步

微信AI重塑小程序，开发者的竞争维度彻底变了

「1个框架3种标签」，让AI运营不再翻车

相关文章

13人干翻Transformer！新架构SSA算力暴减千倍

Agent总掉链子？拆解M3的「裁判与选手」分工

苹果iMessage有了AI智能体，WWDC前信号

ChatGPT融入Codex，默认即护城河十亿用户！

暂无笔记

欢迎来到「PMKG AI知识库」

欢迎来到 PMKG AI知识库