
所有人都在讨论Gemma 4 12B。16GB轻薄本就能跑多模态、9GB显存、性能紧追26B老大哥、1.5亿次下载,这些数字当然炸裂。
但大家忽略了一个真正有意思的事:谷歌是怎么用12B的参数做到这些的?
答案藏在架构里。谷歌把整个多模态模型的底层设计逻辑给翻了一遍。这个事的价值比12B还是26B的参数对比要高一个层次。
一、过去的多模态模型其实是个「缝合怪」
搞懂Gemma 4 12B为什么特殊,先得说说以前的多模态模型是怎么回事。
一张图片传进去,先走视觉编码器(27层Transformer),把像素翻译成LLM能读懂的向量。一段声音传进去,先走音频编码器(12层Conformer),把波形也翻译成向量。最后两个翻译结果和文本一起喂给LLM。
这套逻辑的问题很明显:编码器占了一大半的参数和算力,干的活基本上就是「翻译」。而且编码器和LLM之间训练的时候很难协调,微调的时候更是牵一发动全身。
二、谷歌直接把翻译官开除了
谷歌的做法简单粗暴。把27层视觉Transformer砍掉,换成35M参数的嵌入模块。48×48的像素块进来,做一次矩阵乘法加上坐标查找,直接流进LLM。音频也一样,12层Conformer拔掉,16kHz语音切成40毫秒片段,线性投影一下,直接塞进文本维度空间。
这不算渐进式改进,这是把过去几年的多模态模型设计思路掀了桌子。
Michael Tschannen在X上说得直白,过去几年他的研究重点就是统一跨模态的模型和训练范式。统一的意思就是文本、图像、音频共享同一套权重,没有优先级的差异,没有中间商,也没有那种「编码器翻译之后再给LLM理解」的额外损耗。
三、这件事比12B还是26B重要得多
参数数量的竞争终有尽头。今天你12B,明天我26B,后天他100B,这个游戏根本没有终点。但架构范式的转移不一样。
无编码器架构意味着三件事。第一,多模态模型的训练门槛大幅降低,不用同时优化编码器和LLM两套系统。第二,微调效率大幅提升,LoRA一次前向传递更新所有模态循环。第三,也是最重要的,它证明了一个假设:LLM本身就有能力直接理解原始多模态信号,不需要专门的翻译层。
对所有AI行业的从业者来说,启发都很大。过去大家都在往模型里加东西,更大的编码器、更多的专家模块、更复杂的注意力机制。Gemma 4 12B的方向是反过来的,减东西。减到极致之后发现,很多所谓的必需组件只是历史遗留的惯性。
四、对开发者来说意味着什么
最直接的感受是部署门槛没了。16GB笔记本跑多模态、LoRA微调一次搞定、Apache 2.0协议随便用。这些是表面好处。
更底层的含义是:开发者以后不用在「选模型」和「选模态」之间做取舍。以前想做图像理解得用专门的视觉模型,想做音频分析得换一套工具链。Gemma 4 12B让文本、图像、音频在同一个模型里统一处理,不需要切换工具链,而且就在你自己的笔记本上离线运行。
加上Agent能力,自己写代码、自己调自己、理解5分钟视频里的隐喻,它已经变成了一个可以寄宿在你电脑上的多模态Agent大脑。
五、「无编码器」可能只是开始
这次发布最有趣的地方在于,谷歌没有拿Gemma 4 12B去刷任何Benchmark。他们直接丢上来一句「它能跑在你的笔记本上,而且是开源的」。这个姿态本身就是在说,参数竞赛的规则,该换一换了。
当然,无编码器架构不是银弹。在某些需要高精度视觉理解的场景下,专门的编码器仍然有优势。但它指出的方向很清楚:未来的多模态模型不会越来越复杂,而是越来越简单。当AI从云端降落到每个人的桌面上时,简单比强大更难得。

