Step-Video-T2V

1天前更新 140 00

Step-Video-T2V是一款具备300亿参数、支持生成高达204帧视频的先进文本到视频预训练模型,通过深度压缩VAE和直接偏好优化技术,实现了卓越的视频生成质量。

收录时间:
2026-05-17
Step-Video-T2VStep-Video-T2V

Step-Video-T2V:阶跃星辰开源文本到视频生成模型应用介绍

一、模型概述

Step-Video-T2V 是阶跃星辰(StepFun)推出的先进文本到视频预训练模型,拥有 300亿参数,能够生成高达 204帧 的高质量视频。该模型在视频生成领域达到了领先水平,同时支持中英文双语提示词输入,适用于多种创意视频制作场景。

二、核心技术亮点

1. 深度压缩视频VAE

模型采用深度压缩变分自编码器(VideoVAE),实现了 16×16 空间压缩8x 时间压缩 比率,在保持卓越视频重建质量的同时,显著加速了训练和推理过程。

2. 3D全注意力DiT架构

基于DiT架构构建,包含 48层 网络,每层有 48个注意力头,每个头的维度为128。引入 3D旋转位置编码(3D RoPE),能够灵活处理不同长度和分辨率的视频序列。

3. 视频直接偏好优化(Video-DPO)

通过人类反馈进行直接偏好优化,有效减少生成视频中的伪影,确保输出更平滑、更逼真的视频内容,使生成结果更符合人类预期。

三、应用场景

Step-Video-T2V 在多个领域具有广泛的应用潜力:

  • 创意内容制作:根据文字描述生成动态视频,适用于广告、短视频、影视预可视化等场景。
  • 教育与培训:将抽象概念或教学文本转化为生动的视频内容,提升学习体验。
  • 游戏与动画:快速生成3D动画风格或特定场景的视频素材,辅助游戏开发和动画制作。
  • 社交媒体:用户可通过简单文字描述生成个性化视频,用于社交平台分享。
  • 商业演示:将产品描述或营销文案转化为动态展示视频,增强演示效果。

四、性能与部署

硬件要求

推荐使用 NVIDIA GPU(80GB显存以上) 以获得最佳生成质量。模型在4张GPU上测试,支持多GPU并行部署以优化资源利用。

推理参数建议

为达到最优的视频保真度与动态效果平衡,建议使用以下配置:

  • Step-Video-T2V:推理步数30-50,CFG缩放9.0,时间偏移13.0,帧数204
  • Step-Video-T2V-Turbo(蒸馏版):推理步数10-15,CFG缩放5.0,时间偏移17.0,帧数204

五、评估基准

项目发布了 Step-Video-T2V-Eval 基准测试,包含128个源自真实用户的中文提示词,覆盖11个类别:体育、美食、风景、动物、节日、组合概念、超现实、人物、3D动画、电影摄影和风格,全面评估视频生成质量。

六、在线体验与开源

用户可通过 跃问视频 平台在线体验Step-Video-T2V。模型权重已在 Hugging FaceModelScope 开源,同时提供技术报告供研究参考。社区还提供了单GPU推理和量化支持,大幅降低显存需求。

七、未来展望

Step-Video-T2V 作为视频基础模型的重要实践,其开源为视频生成领域的研究和应用提供了强大工具。结合图像到视频模型(Step-Video-TI2V)以及持续的推理加速方案,该技术有望在更多创意和商业场景中发挥价值。

PMKG知识社交

相关导航

暂无笔记

您必须登录才能记录笔记!
立即登录
none
暂无笔记...