
万亿参数模型跑出每秒1000个token,这件事到底意味着什么?大部分人看到的是快,是13秒代替6分钟的数据对比。但我觉得,更有价值的问题是:当推理速度跨过某个临界点,它改变的不只是等待时间,而是模型能做之事的边界。
一、千tps不只是一个数字
先看几个具体场景。在小米的演示中,UltraSpeed模式用13秒完成了一个复杂可视化大屏的生成,标准版需要6分15秒。13秒和6分15秒的区别,不是”快一点”的区别,这是”能不能等”和”值不值得等”的区别。
6分钟你大概会去做别的事,等回来看结果。13秒你就站在屏幕前等。这个差异听起来不大,但对于一个让AI帮你生成代码的开发者来说,意义完全不同。小米公告中提到的一组数据更能说明问题:在Coding场景中,推测解码的平均接受长度达到6.30,部分样本最高7.14,这意味着每次验证能一口气确认6到7个token。结构化任务天然适合这种模式,模型越”确定”,速度也越快。
但更重要的不是Coding场景本身。而是千tps带来的一个连锁反应:当推理足够快,模型就不再需要「一次猜对」了。
二、速度换智能的底层逻辑
传统的大模型推理逻辑是单路径的。你输入一个prompt,模型从头到尾token-by-token地生成,万一生成错了,等着输出完发现不对,你重新来一次。这是目前绝大多数AI应用的推理模式。慢不只是体验问题,它限制了模型的思考方式。
千tps改变的是什么?是让Best-of-N和Tree Search变得实际可用。如果你可以在相同的时间窗口内,让模型并行运行几十条推理路径,每条路径走不同的方向,后台自动验证纠错,最终筛选出最优的那个,这就是小米公告里说的「用速度换取思考深度」。
这不是理论推演。FP4量化将模型体积大幅缩减的同时保持了精度,DFlash推测解码解除了自回归的串行约束,TileRT的常驻内核引擎让GPU内部数据持续流转,这三项技术的叠加,让万亿模型在通用8卡GPU上跑出了以前只有定制芯片才能达到的推理速度。而定制芯片的问题是,它们是固定的、串行时代的思维。通用GPU上的极致优化,才是让速度变成可编程资源的关键。
三、谁最需要速度?场景分层
速度溢价到底值不值,完全看场景。
通用对话场景对千tps的感知最弱。你问ChatGPT一个问题,3秒和0.3秒回答,感觉差异有,但不会改变你用它做什么。这也是为什么DFlash在通用对话场景下接受率仍不高,因为语义发散、不确定性高,预留审核空间有限。
但Coding场景就完全不一样。开发者写代码时,等待是打断心流的最大成本。13秒出结果和6分钟出结果,决定了你是调试还是去倒杯咖啡。小米这次定价的策略很聪明:UltraSpeed API定价为标准版的3倍,但提供10倍的输出速度提升。场景越需要实时,越愿意付这个溢价。
量化交易信号生成、反欺诈风控拦截、手术辅助医疗影像分析,这些场景下的速度提升直接转化为业务价值的放大。小米列举的场景分类里,最让我关注的是医疗方向:在手术辅助中,AI更快的病灶分析能力可以为医生争取更多处置时间。
四、从慢思考到快思考乘以多路径
现在回到范式层面。过去一年,行业内部一直存在一个争论:大模型到底是该做大做到极致,还是该做快做到极致。这场争论背后有一个共同的隐性假设,快和聪明是两件事,你只能在它们之间做取舍。
小米这次的选择,提供了一条打破取舍的路径。快乘以多路径等于更聪明,这条路走得通。
当推理速度提升了10倍,你可以在模型端并行运行数十条推理路径。每条路径的思考时间不变,但组合起来,后台自行验证纠错的深度是单条路径无法比拟的。这就是速度换智能的本质,它不改变单次推理的质量,但改变了你能在单位时间内探索的空间。
这对AI产品经理意味着什么?意味着在设计应用时,「推理时间」不再是一个固定的性能参数,而是一个可以被交换的战略资源。你可以选择快,让用户获得实时反馈;也可以选择快中取慢,在同样的响应时间内让模型做更深的思考。千tps打开的是这种交换的可能性。
五、小米的布局与行业的下一步
小米选择了一条和Cerebras、Groq不同的路线。Cerebras走的是晶圆级集成,Groq走的是纯片上SRAM定制芯片,都是把硬件做贵、做专、做大。小米和TileRT走的是「通用GPU加极致系统优化」的路线。FP4量化加DFlash加TileRT定制编译,三者缺一不可。
这背后的判断很务实:如果可以在标准硬件上做出接近专用芯片的性能,就不需要依赖定制硬件的交付周期和成本。这对行业的长期影响可能更大,不依赖专用芯片的万亿模型推理方案,意味着更多公司有机会以可接受的成本接入近实时级别的推理能力。
当然,当前方案还有局限。通用对话场景的高接受率仍需优化,申请制说明推理资源仍然紧张。1000tokens/s的技术突破值得关注,但距离普惠应用还有一段路要走。不过,方向已经指明。速度能换来的东西,远不止于「快」。

