
如果你打开AI圈子最近的信息流,可能会被「AO」两家的新模型大战刷屏。但在这波喧嚣之外,谷歌悄悄干了一件可能影响更深的事:把生成图片的扩散模型拿来写文字了。
一、这次谷歌发了什么
谷歌最近很低调地开源了一个叫DiffusionGemma的模型。名字挺绕,但事情很简单,把Stable Diffusion那套生成图片的方法,拿来写文字了。
传统的大模型,不管是GPT、Claude还是Gemini,底层都是自回归架构:一个token一个token往外蹦,像打字机。DiffusionGemma彻底抛弃了这个模式。它一次铺开256个token的「画布」,从随机噪声开始,多轮去噪,整段文字同时浮现。
效果呢?单块H100上每秒1000+ token,消费级RTX 5090上700+,比同规格的Gemma 4快了近4倍。更关键的是,这个26B参数的MoE模型推理时只激活3.8B参数,量化后18GB显存就能装下,一张4090就能本地跑。
二、扩散模型为什么比自回归快4倍
要理解这个数字,先得理解当前大模型为什么「慢」。
自回归模型每生成一个token,都要把几十亿参数从显存搬到计算单元。你看到的「一个字一个字往外蹦」,本质是GPU在频繁等待数据搬运。工程师管这叫内存带宽瓶颈(memory-bandwidth bound)。云端还好说,服务器可以同时处理成百上千个请求把硬件利用率拉满。但在本地,就你一个人用,GPU大部分算力在空转。
扩散模型从根本上改变了这个局面。它一次性把256个token丢给GPU,Tensor Core满负荷运转,瓶颈从「内存搬不过来」变成了「算力够不够」。而算力恰恰是GPU最不缺的东西。
核心矛盾就在这里:自回归模型的「慢」不是物理极限,是架构选择的结果。扩散模型证明了,只要换一种生成方式,速度可以轻松拉到4倍。这个结论对整个AI产品设计都有深远影响,尤其对依赖实时交互的本地应用而言。
三、双向注意力的隐藏价值
速度之外,DiffusionGemma的另一个设计值得关注:双向注意力。
自回归模型只能往前看,生成第N+1个token时,只能看到第1到第N个。它不知道自己还没写出来的内容会是什么。扩散模型的256个token同时存在、同时可见,每个token都能感知到画布上所有其他token。这意味着模型可以边生成边自我纠错,发现不一致立刻修正。
谷歌举了个很直观的例子:数独。数独的本质是「后面的数影响前面的数」,自回归模型做起来成功率0%。DiffusionGemma微调后达到80%。
这个能力在AI产品场景中比速度更有价值。代码补全需要随时调整已写的部分;行内编辑需要在修改中间时重新评估上下文;复杂Markdown格式化需要前后文一致。这些「需要前后文同时协调」的任务,扩散模型有天然的结构性优势。
四、现在能用吗,质量跟得上吗
谷歌的态度很坦诚:DiffusionGemma目前是一匹「赛马」,不是正式产品。
质量方面,和同参数量的Gemma 4 26B相比,DiffusionGemma在多项基准上确实有差距。去噪步数少则速度快但质量差,步数多则质量好但速度优势小,这个在图像扩散领域从未被完美解决的权衡,同样落到了文本扩散模型头上。
但关键不在于它现在多强,而在于谷歌给这条路线配了多大的生态支持。从RTX 4090到H100到DGX Spark全覆盖,vLLM、MLX、Unsloth、NeMo、llama.cpp全部支持,开源协议还是Apache 2.0允许商用。
嘴上说实验性,身体很诚实。这不是一个Demo级项目的配套资源。这说明谷歌内部对「非自回归文本生成」路线的判断,远不止「试试看」这么简单。
五、这对AI产品经理意味着什么
第一,本地AI体验的门槛在急剧下降。以前要在本地跑一个像样的模型,要么花钱买云端API,要么忍受龟速。DiffusionGemma让4090用户拥有了云端都未必能达到的生成速度,1000+ tokens/s,比云端API调用还快一个数量级。这对那些依赖本地部署的AI产品(如离线助手、私有知识库)是一个明确的利好信号。
第二,「速度vs质量」的权衡正在重塑产品设计决策。以前产品经理选模型时主要看准确率榜单。但现在你可能需要多考虑一个维度:这篇内容是允许1秒还是5秒生成?是否需要实时自我纠错?代码补全场景能不能用扩散模型获得更好的「后见之明」?
第三,不要押注单一架构。谷歌同时在押自回归(Gemma 4)和扩散(DiffusionGemma)两条线。最好的策略是理解每种架构的适用边界,在产品中灵活混用。对质量敏感的场景用自回归,对延迟敏感的场景用扩散。
最后说回那个标题里的问题。自回归不会被取代,至少在可见的未来不会。但扩散模型正在打开一个新的应用层:那些以前因为速度不够、实时性不足而无法落地的AI交互场景,现在有了新的答案。

