字节开源Bernini!AI视频编辑告别玄学

每日AI快讯14小时前更新 changgong
245 00

每日AI新闻

你的AI视频工具是不是总听不懂你在说什么?想改天气,它只撒雪片;想换材质,它把整段画面都带跑。

2026年6月2日,字节商业化技术团队开源视频生成与编辑的统一框架Bernini,核心思路极其简单但极其颠覆:让模型先理解、再生成。它不再把prompt直接塞给Diffusion模型,而是先让多模态大模型作为规划器分析指令和素材,生成“语义草图”,再交给DiT模型做视觉渲染。

一、Think-Render分离:给DiT配一个“军师”

传统端到端模型是黑箱,写prompt、出视频、不行再改、反复抽卡。

Bernini把过程拆成两步:MLLM-based planner负责读懂文本指令、参考图和源视频,在ViT embedding空间中预测目标语义表示,相当于生成前的“语义草图”;DiT-based renderer再基于这份草图做高质量渲染。

MLLM是导演,DiT是摄影团队。

二、能力矩阵:三条主线覆盖创作全场景

指令编辑:一条指令改天气、季节、材质和风格,连带调整光照氛围,帧间一致性稳定

参考融合:支持参考图的主体、材质、风格迁移,还能将海报和视频精准植入目标屏幕区域,边界不破、透视不乱、时序不抖

参考生成新视频:单图转视频、多元素组合成同一角色、多角度一致性保持、场景关键帧到连续镜头

三、关键技术:SA-3D RoPE

当多张参考图、源视频、目标视频同时出现在同一序列中,不同素材的时间和空间坐标可能重合。

SA-3D RoPE给每个视觉片段加上独立segment标记,让模型分清谁是谁。这看似是技术细节,正是它让“多参考融合”的复杂编辑成为可能。

四、行业影响:AI视频从“玄学”到“可控”

短期内,最大改变是不再需要反复抽卡。中期看,“Think-Render”分层架构可能成为AI视频工具链的参考标准,NLP团队和CV团队可以独立优化各层。

长期看,Bernini的多角度一致性和场景理解能力指向了世界模型方向。

字节自建Arena评测中,Bernini面对主流闭源模型已站进第一梯队。目前开源的是Bernini-R,包含MLLM Planner的完整版后续发布。

推理代码和权重已在GitHub和Hugging Face开放。

从反复抽卡到按部就班出片,AI视频的说明书时代开始了。未来的AI视频工具不是更会猜你想要什么,而是会先问你想要什么、想清楚了再动手。你觉得呢?

© 版权声明

相关文章

暂无笔记

您必须登录才能记录笔记!
立即登录
none
暂无笔记...