
Step-Video-T2V:阶跃星辰开源文本到视频生成模型应用介绍
一、模型概述
Step-Video-T2V 是阶跃星辰(StepFun)推出的先进文本到视频预训练模型,拥有 300亿参数,能够生成高达 204帧 的高质量视频。该模型在视频生成领域达到了领先水平,同时支持中英文双语提示词输入,适用于多种创意视频制作场景。
二、核心技术亮点
1. 深度压缩视频VAE
模型采用深度压缩变分自编码器(VideoVAE),实现了 16×16 空间压缩 和 8x 时间压缩 比率,在保持卓越视频重建质量的同时,显著加速了训练和推理过程。
2. 3D全注意力DiT架构
基于DiT架构构建,包含 48层 网络,每层有 48个注意力头,每个头的维度为128。引入 3D旋转位置编码(3D RoPE),能够灵活处理不同长度和分辨率的视频序列。
3. 视频直接偏好优化(Video-DPO)
通过人类反馈进行直接偏好优化,有效减少生成视频中的伪影,确保输出更平滑、更逼真的视频内容,使生成结果更符合人类预期。
三、应用场景
Step-Video-T2V 在多个领域具有广泛的应用潜力:
- 创意内容制作:根据文字描述生成动态视频,适用于广告、短视频、影视预可视化等场景。
- 教育与培训:将抽象概念或教学文本转化为生动的视频内容,提升学习体验。
- 游戏与动画:快速生成3D动画风格或特定场景的视频素材,辅助游戏开发和动画制作。
- 社交媒体:用户可通过简单文字描述生成个性化视频,用于社交平台分享。
- 商业演示:将产品描述或营销文案转化为动态展示视频,增强演示效果。
四、性能与部署
硬件要求
推荐使用 NVIDIA GPU(80GB显存以上) 以获得最佳生成质量。模型在4张GPU上测试,支持多GPU并行部署以优化资源利用。
推理参数建议
为达到最优的视频保真度与动态效果平衡,建议使用以下配置:
- Step-Video-T2V:推理步数30-50,CFG缩放9.0,时间偏移13.0,帧数204
- Step-Video-T2V-Turbo(蒸馏版):推理步数10-15,CFG缩放5.0,时间偏移17.0,帧数204
五、评估基准
项目发布了 Step-Video-T2V-Eval 基准测试,包含128个源自真实用户的中文提示词,覆盖11个类别:体育、美食、风景、动物、节日、组合概念、超现实、人物、3D动画、电影摄影和风格,全面评估视频生成质量。
六、在线体验与开源
用户可通过 跃问视频 平台在线体验Step-Video-T2V。模型权重已在 Hugging Face 和 ModelScope 开源,同时提供技术报告供研究参考。社区还提供了单GPU推理和量化支持,大幅降低显存需求。
七、未来展望
Step-Video-T2V 作为视频基础模型的重要实践,其开源为视频生成领域的研究和应用提供了强大工具。结合图像到视频模型(Step-Video-TI2V)以及持续的推理加速方案,该技术有望在更多创意和商业场景中发挥价值。
相关导航


Vizard
Creatify

Clipfly

即梦AI


