
你的AI视频工具是不是总听不懂你在说什么?想改天气,它只撒雪片;想换材质,它把整段画面都带跑。
2026年6月2日,字节商业化技术团队开源视频生成与编辑的统一框架Bernini,核心思路极其简单但极其颠覆:让模型先理解、再生成。它不再把prompt直接塞给Diffusion模型,而是先让多模态大模型作为规划器分析指令和素材,生成“语义草图”,再交给DiT模型做视觉渲染。
一、Think-Render分离:给DiT配一个“军师”
传统端到端模型是黑箱,写prompt、出视频、不行再改、反复抽卡。
Bernini把过程拆成两步:MLLM-based planner负责读懂文本指令、参考图和源视频,在ViT embedding空间中预测目标语义表示,相当于生成前的“语义草图”;DiT-based renderer再基于这份草图做高质量渲染。
MLLM是导演,DiT是摄影团队。
二、能力矩阵:三条主线覆盖创作全场景
指令编辑:一条指令改天气、季节、材质和风格,连带调整光照氛围,帧间一致性稳定
参考融合:支持参考图的主体、材质、风格迁移,还能将海报和视频精准植入目标屏幕区域,边界不破、透视不乱、时序不抖
参考生成新视频:单图转视频、多元素组合成同一角色、多角度一致性保持、场景关键帧到连续镜头
三、关键技术:SA-3D RoPE
当多张参考图、源视频、目标视频同时出现在同一序列中,不同素材的时间和空间坐标可能重合。
SA-3D RoPE给每个视觉片段加上独立segment标记,让模型分清谁是谁。这看似是技术细节,正是它让“多参考融合”的复杂编辑成为可能。
四、行业影响:AI视频从“玄学”到“可控”
短期内,最大改变是不再需要反复抽卡。中期看,“Think-Render”分层架构可能成为AI视频工具链的参考标准,NLP团队和CV团队可以独立优化各层。
长期看,Bernini的多角度一致性和场景理解能力指向了世界模型方向。
字节自建Arena评测中,Bernini面对主流闭源模型已站进第一梯队。目前开源的是Bernini-R,包含MLLM Planner的完整版后续发布。
推理代码和权重已在GitHub和Hugging Face开放。
从反复抽卡到按部就班出片,AI视频的说明书时代开始了。未来的AI视频工具不是更会猜你想要什么,而是会先问你想要什么、想清楚了再动手。你觉得呢?

