字节开源Bernini！AI视频编辑告别玄学

2.7K 00

文章目录

一、Think-Render分离：给DiT配一个“军师”
二、能力矩阵：三条主线覆盖创作全场景
三、关键技术：SA-3D RoPE
四、行业影响：AI视频从“玄学”到“可控”

每日AI新闻

你的AI视频工具是不是总听不懂你在说什么？想改天气，它只撒雪片；想换材质，它把整段画面都带跑。

2026年6月2日，字节商业化技术团队开源视频生成与编辑的统一框架Bernini，核心思路极其简单但极其颠覆：让模型先理解、再生成。它不再把prompt直接塞给Diffusion模型，而是先让多模态大模型作为规划器分析指令和素材，生成“语义草图”，再交给DiT模型做视觉渲染。

一、Think-Render分离：给DiT配一个“军师”

传统端到端模型是黑箱，写prompt、出视频、不行再改、反复抽卡。

Bernini把过程拆成两步：MLLM-based planner负责读懂文本指令、参考图和源视频，在ViT embedding空间中预测目标语义表示，相当于生成前的“语义草图”；DiT-based renderer再基于这份草图做高质量渲染。

MLLM是导演，DiT是摄影团队。

二、能力矩阵：三条主线覆盖创作全场景

指令编辑：一条指令改天气、季节、材质和风格，连带调整光照氛围，帧间一致性稳定

参考融合：支持参考图的主体、材质、风格迁移，还能将海报和视频精准植入目标屏幕区域，边界不破、透视不乱、时序不抖

参考生成新视频：单图转视频、多元素组合成同一角色、多角度一致性保持、场景关键帧到连续镜头

三、关键技术：SA-3D RoPE

当多张参考图、源视频、目标视频同时出现在同一序列中，不同素材的时间和空间坐标可能重合。

SA-3D RoPE给每个视觉片段加上独立segment标记，让模型分清谁是谁。这看似是技术细节，正是它让“多参考融合”的复杂编辑成为可能。

四、行业影响：AI视频从“玄学”到“可控”

短期内，最大改变是不再需要反复抽卡。中期看，“Think-Render”分层架构可能成为AI视频工具链的参考标准，NLP团队和CV团队可以独立优化各层。

长期看，Bernini的多角度一致性和场景理解能力指向了世界模型方向。

字节自建Arena评测中，Bernini面对主流闭源模型已站进第一梯队。目前开源的是Bernini-R，包含MLLM Planner的完整版后续发布。

推理代码和权重已在GitHub和Hugging Face开放。

从反复抽卡到按部就班出片，AI视频的说明书时代开始了。未来的AI视频工具不是更会猜你想要什么，而是会先问你想要什么、想清楚了再动手。你觉得呢？

若无特殊声明，本站所有文章版权均归「PMKG AI知识库」原创和所有，未经许可，任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容，或在非我站所属的服务器上建立镜像。否则，我站将依法保留追究相关法律责任的权利。

斯坦福双博士联手，VLOA给具身智能装上预演引擎

24小时AI快讯 # AI资讯 # RoboScience # VLOA

2个月前

02.7K0

芯片002出走Anthropic，万亿俱乐部拼硬件

24小时AI快讯 # AI芯片 # AI资讯 # Anthropic

1个月前

02.4K0

不用VAE也能反超OpenAI？国产生图架构揭秘

24小时AI快讯 # AI # AI资讯 # 图像生成

1个月前

02.4K0

一家成立一年的机器人公司，凭什么进蔚来？

24小时AI快讯 # AI资讯 # 光象科技 # 具身智能

1个月前

01.8K0

暂无笔记

您必须登录才能记录笔记！

立即登录

暂无笔记...

字节开源Bernini！AI视频编辑告别玄学

一、Think-Render分离：给DiT配一个“军师”

二、能力矩阵：三条主线覆盖创作全场景

三、关键技术：SA-3D RoPE

四、行业影响：AI视频从“玄学”到“可控”

Anthropic疯狂一周：万亿估值、122亿大单、Sonnet 4.5临终告白...

AI公司抢疯了！这个新岗位叫FDE

相关文章

斯坦福双博士联手，VLOA给具身智能装上预演引擎

芯片002出走Anthropic，万亿俱乐部拼硬件

不用VAE也能反超OpenAI？国产生图架构揭秘

一家成立一年的机器人公司，凭什么进蔚来？

暂无笔记

字节开源Bernini！AI视频编辑告别玄学

一、Think-Render分离：给DiT配一个“军师”

二、能力矩阵：三条主线覆盖创作全场景

三、关键技术：SA-3D RoPE

四、行业影响：AI视频从“玄学”到“可控”

Anthropic疯狂一周：万亿估值、122亿大单、Sonnet 4.5临终告白...

AI公司抢疯了！这个新岗位叫FDE

相关文章

斯坦福双博士联手，VLOA给具身智能装上预演引擎

芯片002出走Anthropic，万亿俱乐部拼硬件

不用VAE也能反超OpenAI？国产生图架构揭秘

一家成立一年的机器人公司，凭什么进蔚来？

暂无笔记

欢迎来到「PMKG AI知识库」

欢迎来到 PMKG AI知识库