谷歌扩散模型快4倍，自回归架构要被淘汰了吗？

2.4K 00

文章目录

一、这次谷歌发了什么
二、扩散模型为什么比自回归快4倍
三、双向注意力的隐藏价值
四、现在能用吗，质量跟得上吗
五、这对AI产品经理意味着什么

每日AI新闻

如果你打开AI圈子最近的信息流，可能会被「AO」两家的新模型大战刷屏。但在这波喧嚣之外，谷歌悄悄干了一件可能影响更深的事：把生成图片的扩散模型拿来写文字了。

一、这次谷歌发了什么

谷歌最近很低调地开源了一个叫DiffusionGemma的模型。名字挺绕，但事情很简单，把Stable Diffusion那套生成图片的方法，拿来写文字了。

传统的大模型，不管是GPT、Claude还是Gemini，底层都是自回归架构：一个token一个token往外蹦，像打字机。DiffusionGemma彻底抛弃了这个模式。它一次铺开256个token的「画布」，从随机噪声开始，多轮去噪，整段文字同时浮现。

效果呢？单块H100上每秒1000+ token，消费级RTX 5090上700+，比同规格的Gemma 4快了近4倍。更关键的是，这个26B参数的MoE模型推理时只激活3.8B参数，量化后18GB显存就能装下，一张4090就能本地跑。

二、扩散模型为什么比自回归快4倍

要理解这个数字，先得理解当前大模型为什么「慢」。

自回归模型每生成一个token，都要把几十亿参数从显存搬到计算单元。你看到的「一个字一个字往外蹦」，本质是GPU在频繁等待数据搬运。工程师管这叫内存带宽瓶颈（memory-bandwidth bound）。云端还好说，服务器可以同时处理成百上千个请求把硬件利用率拉满。但在本地，就你一个人用，GPU大部分算力在空转。

扩散模型从根本上改变了这个局面。它一次性把256个token丢给GPU，Tensor Core满负荷运转，瓶颈从「内存搬不过来」变成了「算力够不够」。而算力恰恰是GPU最不缺的东西。

核心矛盾就在这里：自回归模型的「慢」不是物理极限，是架构选择的结果。扩散模型证明了，只要换一种生成方式，速度可以轻松拉到4倍。这个结论对整个AI产品设计都有深远影响，尤其对依赖实时交互的本地应用而言。

三、双向注意力的隐藏价值

速度之外，DiffusionGemma的另一个设计值得关注：双向注意力。

自回归模型只能往前看，生成第N+1个token时，只能看到第1到第N个。它不知道自己还没写出来的内容会是什么。扩散模型的256个token同时存在、同时可见，每个token都能感知到画布上所有其他token。这意味着模型可以边生成边自我纠错，发现不一致立刻修正。

谷歌举了个很直观的例子：数独。数独的本质是「后面的数影响前面的数」，自回归模型做起来成功率0%。DiffusionGemma微调后达到80%。

这个能力在AI产品场景中比速度更有价值。代码补全需要随时调整已写的部分；行内编辑需要在修改中间时重新评估上下文；复杂Markdown格式化需要前后文一致。这些「需要前后文同时协调」的任务，扩散模型有天然的结构性优势。

四、现在能用吗，质量跟得上吗

谷歌的态度很坦诚：DiffusionGemma目前是一匹「赛马」，不是正式产品。

质量方面，和同参数量的Gemma 4 26B相比，DiffusionGemma在多项基准上确实有差距。去噪步数少则速度快但质量差，步数多则质量好但速度优势小，这个在图像扩散领域从未被完美解决的权衡，同样落到了文本扩散模型头上。

但关键不在于它现在多强，而在于谷歌给这条路线配了多大的生态支持。从RTX 4090到H100到DGX Spark全覆盖，vLLM、MLX、Unsloth、NeMo、llama.cpp全部支持，开源协议还是Apache 2.0允许商用。

嘴上说实验性，身体很诚实。这不是一个Demo级项目的配套资源。这说明谷歌内部对「非自回归文本生成」路线的判断，远不止「试试看」这么简单。

五、这对AI产品经理意味着什么

第一，本地AI体验的门槛在急剧下降。以前要在本地跑一个像样的模型，要么花钱买云端API，要么忍受龟速。DiffusionGemma让4090用户拥有了云端都未必能达到的生成速度，1000+ tokens/s，比云端API调用还快一个数量级。这对那些依赖本地部署的AI产品（如离线助手、私有知识库）是一个明确的利好信号。

第二，「速度vs质量」的权衡正在重塑产品设计决策。以前产品经理选模型时主要看准确率榜单。但现在你可能需要多考虑一个维度：这篇内容是允许1秒还是5秒生成？是否需要实时自我纠错？代码补全场景能不能用扩散模型获得更好的「后见之明」？

第三，不要押注单一架构。谷歌同时在押自回归（Gemma 4）和扩散（DiffusionGemma）两条线。最好的策略是理解每种架构的适用边界，在产品中灵活混用。对质量敏感的场景用自回归，对延迟敏感的场景用扩散。

最后说回那个标题里的问题。自回归不会被取代，至少在可见的未来不会。但扩散模型正在打开一个新的应用层：那些以前因为速度不够、实时性不足而无法落地的AI交互场景，现在有了新的答案。