Step-Video-T2V

2个月前更新 1.9K 00

Step-Video-T2V是一款具备300亿参数、支持生成高达204帧视频的先进文本到视频预训练模型，通过深度压缩VAE和直接偏好优化技术，实现了卓越的视频生成质量。

收录时间：

2026-05-17

打开网站

AI视频 # AI视频 # Step-Video-T2V

Step-Video-T2V

打开网站

文章目录

一、模型概述
二、核心技术亮点
1. 深度压缩视频VAE
2. 3D全注意力DiT架构
3. 视频直接偏好优化（Video-DPO）
三、应用场景
四、性能与部署
硬件要求
推理参数建议
五、评估基准
六、在线体验与开源
七、未来展望

Step-Video-T2V：阶跃星辰开源文本到视频生成模型应用介绍

一、模型概述

Step-Video-T2V 是阶跃星辰（StepFun）推出的先进文本到视频预训练模型，拥有 300亿参数，能够生成高达 204帧 的高质量视频。该模型在视频生成领域达到了领先水平，同时支持中英文双语提示词输入，适用于多种创意视频制作场景。

二、核心技术亮点

1. 深度压缩视频VAE

模型采用深度压缩变分自编码器（VideoVAE），实现了 16×16 空间压缩 和 8x 时间压缩 比率，在保持卓越视频重建质量的同时，显著加速了训练和推理过程。

2. 3D全注意力DiT架构

基于DiT架构构建，包含 48层 网络，每层有 48个注意力头，每个头的维度为128。引入 3D旋转位置编码（3D RoPE），能够灵活处理不同长度和分辨率的视频序列。

3. 视频直接偏好优化（Video-DPO）

通过人类反馈进行直接偏好优化，有效减少生成视频中的伪影，确保输出更平滑、更逼真的视频内容，使生成结果更符合人类预期。

三、应用场景

Step-Video-T2V 在多个领域具有广泛的应用潜力：

创意内容制作：根据文字描述生成动态视频，适用于广告、短视频、影视预可视化等场景。
教育与培训：将抽象概念或教学文本转化为生动的视频内容，提升学习体验。
游戏与动画：快速生成3D动画风格或特定场景的视频素材，辅助游戏开发和动画制作。
社交媒体：用户可通过简单文字描述生成个性化视频，用于社交平台分享。
商业演示：将产品描述或营销文案转化为动态展示视频，增强演示效果。

四、性能与部署

硬件要求

推荐使用 NVIDIA GPU（80GB显存以上） 以获得最佳生成质量。模型在4张GPU上测试，支持多GPU并行部署以优化资源利用。

推理参数建议

为达到最优的视频保真度与动态效果平衡，建议使用以下配置：

Step-Video-T2V：推理步数30-50，CFG缩放9.0，时间偏移13.0，帧数204
Step-Video-T2V-Turbo（蒸馏版）：推理步数10-15，CFG缩放5.0，时间偏移17.0，帧数204

五、评估基准

项目发布了 Step-Video-T2V-Eval 基准测试，包含128个源自真实用户的中文提示词，覆盖11个类别：体育、美食、风景、动物、节日、组合概念、超现实、人物、3D动画、电影摄影和风格，全面评估视频生成质量。

六、在线体验与开源

用户可通过 跃问视频 平台在线体验Step-Video-T2V。模型权重已在 Hugging Face 和 ModelScope 开源，同时提供技术报告供研究参考。社区还提供了单GPU推理和量化支持，大幅降低显存需求。

七、未来展望

Step-Video-T2V 作为视频基础模型的重要实践，其开源为视频生成领域的研究和应用提供了强大工具。结合图像到视频模型（Step-Video-TI2V）以及持续的推理加速方案，该技术有望在更多创意和商业场景中发挥价值。

暂无笔记

您必须登录才能记录笔记！

立即登录

暂无笔记...

Step-Video-T2V

Step-Video-T2V：阶跃星辰开源文本到视频生成模型应用介绍

一、模型概述

二、核心技术亮点

1. 深度压缩视频VAE

2. 3D全注意力DiT架构

3. 视频直接偏好优化（Video-DPO）

三、应用场景

四、性能与部署

硬件要求

推理参数建议

五、评估基准

六、在线体验与开源

七、未来展望

相关导航

pika labs

有言数字人-免费ai数字人

星火绘镜-免费ai视频生成

Designs.ai

Unscreen

有言-免费ai视频生成

Submagic

摩尔线程数字人

暂无笔记

欢迎来到「PMKG AI知识库」

欢迎来到 PMKG AI知识库