每秒1000token，谷歌新模型给AI推理换引擎

文章目录

一、自回归模型的”打字机困境”
二、DiffusionGemma的”印刷机方案”
三、速度与质量的天平
四、端侧推理的未来方向

每日AI新闻

谷歌DeepMind又出手了。这次不是Gemma 4的迭代，而是一个全新的方向，文本扩散模型 DiffusionGemma。260亿参数，单卡H100每秒狂吐1000个token，速度是自回归模型的4倍。关键是，经过量化后18GB显存就能跑，你的4090也能驱动。

一、自回归模型的”打字机困境”

自回归LLM的工作方式，本质上就是一台高级打字机。从左到右，一个词一个词往外蹦。在云端场景下，成千上万的请求挤在一起，GPU的算力能被充分榨干，效率还不错。

但回到本地就尴尬了。模型在等用户输入下一个字符，GPU大片时间处于空闲状态。一个人用4090跑大模型，好比开着超跑在小区里溜达，性能根本发挥不出来。这个矛盾随着端侧AI需求爆发变得越来越尖锐。开发者想搭一个本地实时AI助手，结果每次回答都要等好几秒，体验感约等于拨号上网。

不少团队想过从架构层面找解法。扩散模型被认为有潜力，但一直面临两个致命问题：计算成本太高，长文本生成质量难以保证。你让模型一次性生成一大段，它经常前半段还正常，后半段就开始跑偏，对远距离信息的理解能力远不如自回归模型。要在不牺牲质量、不烧太多算力的前提下把它做稳定，过去一直缺乏有效的工程方案。

二、DiffusionGemma的”印刷机方案”

DiffusionGemma的解法简单直接：放弃逐字生成，换成一次性生成整段文本。每一次推理处理256个token，让GPU”吃饱了再干活”。DeepMind把这套方案做到了可落地，核心是三步组合拳。

第一，MoE架构让260亿参数只激活38亿参数，真正干活的部分缩到十分之一以下。第二，英伟达深度参与全硬件栈优化，针对4090、5090等消费级显卡做了量化适配，原生集成了NVFP4技术，几乎不损失精度就能大幅提升吞吐量。第三，借助文本扩散技术，模型从随机占位token开始，迭代修正，逐步收敛到正确的文本输出。

这就好比从打字机升级到了印刷机，不再是逐字敲击，而是整版一次成型，效率自然天差地别。这种思路的转变，本质上是在重新思考”模型该如何调用硬件”这个底层问题。

再深入一层，文本扩散的工作原理和AI图像生成有异曲同工之处。图像模型从随机噪点开始，经过多轮迭代，最终产出清晰画面。DiffusionGemma把同样的逻辑套用到文本上：先生成一组随机的占位token，然后逐轮锁定已经准确的词，把有效信息作为上下文，持续修正剩余的文本。

这个方案还有一个副产品：模型在生成过程中能同步处理整段内容，所以衍生出了精准补全Markdown格式、实时生成渲染代码、甚至根据文字描述生成3D SVG图形等能力。这些在传统自回归模型中很难做到。

三、速度与质量的天平

速度翻倍的代价是什么？DeepMind没有回避这个问题：DiffusionGemma的生成质量不及Gemma 4。在追求极致生成质量的场景里，老牌自回归模型仍然是王者。单请求的token生成速度是Gemma 4的3.65倍，但输出的整体品质有明显差距。

这是一个有趣的发现。AI推理正在从”一个架构解决所有问题”走向”场景分化”。自回归模型依然统治云端高并发场景，成千上万的请求批量处理，能充分榨取计算资源。而扩散模型在本地单用户场景中找到了自己的生态位，速度优先，实时交互，GPU利用率最大化。

DeepMind自己也说，DiffusionGemma不适合高并发的云端服务。在高QPS场景下，自回归模型能充分榨取计算资源，扩散模型的并行解码优势反而会弱化，还可能推高服务成本。这不是谁取代谁，而是各司其职、各有各的战场。

四、端侧推理的未来方向

DiffusionGemma的意义不在于它比Gemma 4快了多少倍，而在于它打开了一条新的技术路径。文本扩散不再只是论文里的概念，而是可以下载、部署、微调的实际模型。Apache 2.0开源协议意味着开发者可以随意折腾，Unsloth已经第一时间完成了微调适配，跑通了数独生成这类自回归模型很难完成的任务。

对个人开发者和中小企业来说，这意味着能在本地硬件上跑出云端级别的吞吐量。尤其在线内编辑、代码补全、SVG图形生成等交互式场景中，DiffusionGemma的实时性优势非常突出。一个端侧IDE集成这种模型，补全代码几乎是零延迟。

当然，它不适合所有场景。高并发的云端服务里，自回归模型仍然是更经济的选择。但未来呢？随着端侧AI需求持续增长，文本扩散模型的生态位只会越来越宽。谷歌这步棋，长远看是在提前卡位下一个推理架构的方向。

你怎么看文本扩散模型的前景？欢迎评论区聊聊你的判断。