每秒1000token,谷歌新模型给AI推理换引擎

24小时AI快讯9小时前发布 changgong
155 00

每日AI新闻

谷歌DeepMind又出手了。这次不是Gemma 4的迭代,而是一个全新的方向,文本扩散模型DiffusionGemma。260亿参数,单卡H100每秒狂吐1000个token,速度是自回归模型的4倍。关键是,经过量化后18GB显存就能跑,你的4090也能驱动。

一、自回归模型的”打字机困境”

自回归LLM的工作方式,本质上就是一台高级打字机。从左到右,一个词一个词往外蹦。在云端场景下,成千上万的请求挤在一起,GPU的算力能被充分榨干,效率还不错。

但回到本地就尴尬了。模型在等用户输入下一个字符,GPU大片时间处于空闲状态。一个人用4090跑大模型,好比开着超跑在小区里溜达,性能根本发挥不出来。这个矛盾随着端侧AI需求爆发变得越来越尖锐。开发者想搭一个本地实时AI助手,结果每次回答都要等好几秒,体验感约等于拨号上网。

不少团队想过从架构层面找解法。扩散模型被认为有潜力,但一直面临两个致命问题:计算成本太高,长文本生成质量难以保证。你让模型一次性生成一大段,它经常前半段还正常,后半段就开始跑偏,对远距离信息的理解能力远不如自回归模型。要在不牺牲质量、不烧太多算力的前提下把它做稳定,过去一直缺乏有效的工程方案。

二、DiffusionGemma的”印刷机方案”

DiffusionGemma的解法简单直接:放弃逐字生成,换成一次性生成整段文本。每一次推理处理256个token,让GPU”吃饱了再干活”。DeepMind把这套方案做到了可落地,核心是三步组合拳。

第一,MoE架构让260亿参数只激活38亿参数,真正干活的部分缩到十分之一以下。第二,英伟达深度参与全硬件栈优化,针对4090、5090等消费级显卡做了量化适配,原生集成了NVFP4技术,几乎不损失精度就能大幅提升吞吐量。第三,借助文本扩散技术,模型从随机占位token开始,迭代修正,逐步收敛到正确的文本输出。

这就好比从打字机升级到了印刷机,不再是逐字敲击,而是整版一次成型,效率自然天差地别。这种思路的转变,本质上是在重新思考”模型该如何调用硬件”这个底层问题。

再深入一层,文本扩散的工作原理和AI图像生成有异曲同工之处。图像模型从随机噪点开始,经过多轮迭代,最终产出清晰画面。DiffusionGemma把同样的逻辑套用到文本上:先生成一组随机的占位token,然后逐轮锁定已经准确的词,把有效信息作为上下文,持续修正剩余的文本。

这个方案还有一个副产品:模型在生成过程中能同步处理整段内容,所以衍生出了精准补全Markdown格式、实时生成渲染代码、甚至根据文字描述生成3D SVG图形等能力。这些在传统自回归模型中很难做到。

三、速度与质量的天平

速度翻倍的代价是什么?DeepMind没有回避这个问题:DiffusionGemma的生成质量不及Gemma 4。在追求极致生成质量的场景里,老牌自回归模型仍然是王者。单请求的token生成速度是Gemma 4的3.65倍,但输出的整体品质有明显差距。

这是一个有趣的发现。AI推理正在从”一个架构解决所有问题”走向”场景分化”。自回归模型依然统治云端高并发场景,成千上万的请求批量处理,能充分榨取计算资源。而扩散模型在本地单用户场景中找到了自己的生态位,速度优先,实时交互,GPU利用率最大化。

DeepMind自己也说,DiffusionGemma不适合高并发的云端服务。在高QPS场景下,自回归模型能充分榨取计算资源,扩散模型的并行解码优势反而会弱化,还可能推高服务成本。这不是谁取代谁,而是各司其职、各有各的战场。

四、端侧推理的未来方向

DiffusionGemma的意义不在于它比Gemma 4快了多少倍,而在于它打开了一条新的技术路径。文本扩散不再只是论文里的概念,而是可以下载、部署、微调的实际模型。Apache 2.0开源协议意味着开发者可以随意折腾,Unsloth已经第一时间完成了微调适配,跑通了数独生成这类自回归模型很难完成的任务。

对个人开发者和中小企业来说,这意味着能在本地硬件上跑出云端级别的吞吐量。尤其在线内编辑、代码补全、SVG图形生成等交互式场景中,DiffusionGemma的实时性优势非常突出。一个端侧IDE集成这种模型,补全代码几乎是零延迟。

当然,它不适合所有场景。高并发的云端服务里,自回归模型仍然是更经济的选择。但未来呢?随着端侧AI需求持续增长,文本扩散模型的生态位只会越来越宽。谷歌这步棋,长远看是在提前卡位下一个推理架构的方向。

你怎么看文本扩散模型的前景?欢迎评论区聊聊你的判断。

© 版权声明

相关文章

暂无笔记

您必须登录才能记录笔记!
立即登录
none
暂无笔记...