
6月初的AI生图赛道,出了一个反常的榜单。智象未来(HiDream.ai)在Artificial Analysis评测中拿下总榜第三、国产第一。ELO得分超过Google的Nano Banana 2、NVIDIA的Cosmos3和字节的Seedream 4.0,与OpenAI的GPT-Image 1.5仅一分之差。按厂商排名,已是全球第二、国内第一的生图模型厂商。
反常之处在于,它走了一条叫「原生全模态」的新路,和市面上常见的扩散模型路线完全不同。这条路的核心动作之一,就是把VAE这个生图模型的「标配」组件,直接拿掉了。
一、全球第二的背后,不只是数字
HiDream-O1-Image-1.5能做到的事,不止刷榜这么简单。从智东西发布的十几组实测来看,这款模型的能力已经覆盖了生图领域的几个核心痛点。
文字渲染是最直观的突破。它能在海报里同时处理三种不同字体,中英文混排、竖排文字都能准确生成。还能理解多个信息层级,主标题、副标题、阵容列表、票价和票务平台该有的大小对比和区域划分,一个不落。在高密度诗歌渲染测试中,华兹沃斯的「I Wondered Lonely as a Cloud」几乎一字不差地出现在泛黄的诗集页面上。
海外模型在这个场景翻车的案例比比皆是。中文竖排渲染这种需求,对海外大厂来说优先级太低,但对国内设计市场来说是刚需。
横向对比的结果也更值得细看。在分镜生成测试中,HiDream-O1-Image-1.5的角色一致性做得比Nano Banana 2好,分镜2和5中的人物样貌、衣着基本一致。GPT-Image 2在细节真实度上仍然最强,但在抽象几何风格处理上不如HiDream大胆。三款模型各有千秋,但HiDream在风格化任务中的表现——商业摄影、复古胶片、抽象几何三种风格切换自如,说明它在跨风格理解力上已经具备了相当的水准。
二、「去掉VAE」到底意味着什么
传统文生图模型像一棵不断分叉的树:文本有自己的tokenizer,图像和视频有各自的encoder和decoder,音频和动作也沿着不同路径处理。这些分支最终汇入一个扩散模型来完成生成。
这套架构在简单的文字转图片任务上表现不错,但面对文字密集排版、UI页面设计、多主体生成这类复杂任务时,问题就暴露了——信息在模块间反复转换,损耗是必然的。语义错位、结构不稳定、细节丢失,本质上都是「模块拼凑」带来的代价。
HiDream-O1系列的路线选择是:它选择让所有模态在模型底层共享同一套表征体系。图像像素、文本Token、视频体素、音频信号……从进入模型的那一刻起,就被映射进同一个共享Token空间,和同一套UiT(像素级统一的Unified Transformer)交互。
VAE的消失,是这个选择最直观的信号。VAE(变分自编码器)在传统路线中负责把图像压缩成潜在空间的表示,是图像进入扩散模型的必经之路。但在HiDream-O1系列中,图像不再需要独立的压缩/解压步骤,模型可以直接处理原始像素级别的信息。去掉VAE,实质上是去掉了一个独立的中介层。
这套架构之前已经在开源模型HiDream-O1-Image上得到验证。随后一个月内,智象未来连续推出了HiDream-O1-Image-Pro和商用版HiDream-O1-Image-1.5——三次迭代,历时不到五周。这种迭代速度也说明UiT架构的训练和部署流程已经相当成熟,不是实验室里的空中楼阁。
三、对AI产品经理来说,这为什么重要
从产品角度来理解这个技术选择,有几个关键判断点。
其一,多模态融合从拼凑变成了一体。传统架构中,模型需要把图片压缩到潜在空间,再用文本编码器解读文字,最后把两个结果拼起来。UiT的做法不同:文字和像素从一开始就在同一个空间里。这意味着文字海报、图表解读这类场景跑起来更自然——架构级的能力,不需要应用层去修补。
其二,架构的可扩展性决定了产品迭代的节奏。一个月内出三款模型,从开源验证版到Pro再到商用版,这种节奏在产品层面意味着你在选择平台时,不需要等待漫长的研究-工程-产品转化周期。一家公司能一月三迭代,产品路线图的确定性就比年更型公司高得多。对AI产品经理来说,底层架构的工程友好度,直接决定了上层产品的迭代自由度。
其三,「国产第一」是可用性的检验。智东西的实测已经覆盖了海报设计、分镜制作、UI原型等真实商业场景。HiDream-O1-Image-1.5产出的结果质量已经从「还不错」到了可以拿来直接用的级别。国产AI生图工具链,正在从可用走向好用。
四、架构竞赛拉开序幕
生图模型的竞争,正在从模型参数的军备竞赛,转向底层架构的选择竞赛。
传统扩散模型路线已经跑了好几年,生态成熟、工具链完善,但也有先天缺陷——模块拼凑的本质决定了它在复杂任务中会有上限。UiT路线的出现,给出了一个从底层解决问题的替代方案:既然拼凑有损耗,那从一开始就别拼凑。
这个选择的战略意义是怎么强调都不过分的。如果UiT路线被验证为可规模化——更深的模型、更大的训练数据、更强的工程能力——那么VAE和独立文本编码器在生图模型中的「标配」地位就会被根本性地动摇。
智象未来不是唯一走这条路的人。越来越多的生图模型正在向原生统一架构靠拢。区别在于,HiDream用一个月三次迭代的速度,先跑完了从技术验证到产品落地的完整周期。
对于正在做AI产品设计的人来说,这事值得放进观察清单。这不是明天就要切换API的问题,是架构选择正在重新定义「一个生图模型能做什么」的边界。而你做的产品,迟早会在这个边界做决策。

