不用VAE也能反超OpenAI？国产生图架构揭秘

2.6K 00

文章目录

一、全球第二的背后，不只是数字
二、「去掉VAE」到底意味着什么
三、对AI产品经理来说，这为什么重要
四、架构竞赛拉开序幕

每日AI新闻

6月初的AI生图赛道，出了一个反常的榜单。智象未来（HiDream.ai）在Artificial Analysis评测中拿下总榜第三、国产第一。ELO得分超过Google的Nano Banana 2、NVIDIA的Cosmos3和字节的Seedream 4.0，与OpenAI的GPT-Image 1.5仅一分之差。按厂商排名，已是全球第二、国内第一的生图模型厂商。

反常之处在于，它走了一条叫「原生全模态」的新路，和市面上常见的扩散模型路线完全不同。这条路的核心动作之一，就是把VAE这个生图模型的「标配」组件，直接拿掉了。

一、全球第二的背后，不只是数字

HiDream-O1-Image-1.5能做到的事，不止刷榜这么简单。从智东西发布的十几组实测来看，这款模型的能力已经覆盖了生图领域的几个核心痛点。

文字渲染是最直观的突破。它能在海报里同时处理三种不同字体，中英文混排、竖排文字都能准确生成。还能理解多个信息层级，主标题、副标题、阵容列表、票价和票务平台该有的大小对比和区域划分，一个不落。在高密度诗歌渲染测试中，华兹沃斯的「I Wondered Lonely as a Cloud」几乎一字不差地出现在泛黄的诗集页面上。

海外模型在这个场景翻车的案例比比皆是。中文竖排渲染这种需求，对海外大厂来说优先级太低，但对国内设计市场来说是刚需。

横向对比的结果也更值得细看。在分镜生成测试中，HiDream-O1-Image-1.5的角色一致性做得比Nano Banana 2好，分镜2和5中的人物样貌、衣着基本一致。GPT-Image 2在细节真实度上仍然最强，但在抽象几何风格处理上不如HiDream大胆。三款模型各有千秋，但HiDream在风格化任务中的表现——商业摄影、复古胶片、抽象几何三种风格切换自如，说明它在跨风格理解力上已经具备了相当的水准。

二、「去掉VAE」到底意味着什么

传统文生图模型像一棵不断分叉的树：文本有自己的tokenizer，图像和视频有各自的encoder和decoder，音频和动作也沿着不同路径处理。这些分支最终汇入一个扩散模型来完成生成。

这套架构在简单的文字转图片任务上表现不错，但面对文字密集排版、UI页面设计、多主体生成这类复杂任务时，问题就暴露了——信息在模块间反复转换，损耗是必然的。语义错位、结构不稳定、细节丢失，本质上都是「模块拼凑」带来的代价。

HiDream-O1系列的路线选择是：它选择让所有模态在模型底层共享同一套表征体系。图像像素、文本Token、视频体素、音频信号……从进入模型的那一刻起，就被映射进同一个共享Token空间，和同一套UiT（像素级统一的Unified Transformer）交互。

VAE的消失，是这个选择最直观的信号。VAE（变分自编码器）在传统路线中负责把图像压缩成潜在空间的表示，是图像进入扩散模型的必经之路。但在HiDream-O1系列中，图像不再需要独立的压缩/解压步骤，模型可以直接处理原始像素级别的信息。去掉VAE，实质上是去掉了一个独立的中介层。

这套架构之前已经在开源模型HiDream-O1-Image上得到验证。随后一个月内，智象未来连续推出了HiDream-O1-Image-Pro和商用版HiDream-O1-Image-1.5——三次迭代，历时不到五周。这种迭代速度也说明UiT架构的训练和部署流程已经相当成熟，不是实验室里的空中楼阁。

三、对AI产品经理来说，这为什么重要

从产品角度来理解这个技术选择，有几个关键判断点。

其一，多模态融合从拼凑变成了一体。传统架构中，模型需要把图片压缩到潜在空间，再用文本编码器解读文字，最后把两个结果拼起来。UiT的做法不同：文字和像素从一开始就在同一个空间里。这意味着文字海报、图表解读这类场景跑起来更自然——架构级的能力，不需要应用层去修补。

其二，架构的可扩展性决定了产品迭代的节奏。一个月内出三款模型，从开源验证版到Pro再到商用版，这种节奏在产品层面意味着你在选择平台时，不需要等待漫长的研究-工程-产品转化周期。一家公司能一月三迭代，产品路线图的确定性就比年更型公司高得多。对AI产品经理来说，底层架构的工程友好度，直接决定了上层产品的迭代自由度。

其三，「国产第一」是可用性的检验。智东西的实测已经覆盖了海报设计、分镜制作、UI原型等真实商业场景。HiDream-O1-Image-1.5产出的结果质量已经从「还不错」到了可以拿来直接用的级别。国产AI生图工具链，正在从可用走向好用。