Step-Video-T2V碾压Sora?国产开源巨兽Step-Video-T2V杀到300亿参数一键生成204帧视频

Written by 30115776@qq.com

GPU救星来了!阶跃星辰开源16倍压缩黑科技:204帧视频生成,显存占用砍半!

当全球还在为Sora的算力需求咋舌时,中国团队已经用数学之美破解了视频生成的「不可能三角」——

▶️ 开发者最痛的三座大山:

  • 🚫 动辄4090才能跑的AI视频模型
  • 🚫 英文提示词门槛劝退中文创作者
  • 🚫 生成视频像PPT,超过5秒就崩坏…

而今天开源的 Step-Video-T2V ,用三项核弹级突破撕碎这些枷锁:

  • Video-VAE时空压缩:16×16空间压缩+8倍时间压缩,让3060显卡也能跑204帧
  • 中英双语直输:唯一支持中文prompt的开源视频模型
  • DPO优化算法:204帧连续生成不跳帧,丝滑度提升300%

你可以通过跃问视频在线生成来体验用一句中文提示,5分钟生成属于你的微电影!

快速阅读

Step-Video-T2V 是一款强大的文本到视频生成模型,能够生成高质量的视频。

  1. 核心功能:支持中英文提示输入,生成长达 204 帧的高质量视频。
  2. 技术原理:基于深度压缩的变分自编码器(Video-VAE)和扩散 Transformer(DiT)架构,显著提高训练和推理效率。

Step-Video-T2V 是什么

Step-Video-T2V 是阶跃星辰团队推出的一款开源文本到视频预训练模型,拥有 300 亿参数,能够生成长达 204 帧的高质量视频。该模型基于深度压缩的变分自编码器(Video-VAE),实现了 16×16 的空间压缩和 8× 的时间压缩,显著提高了训练和推理效率。

此外,Step-Video-T2V 配备了双语文本编码器,支持中英文提示输入,能够理解并生成与文本描述相符的视频。通过直接偏好优化(DPO)方法,进一步提升了视频质量,使生成的视频更加平滑和真实。

Step-Video-T2V 的主要功能

  • 高质量视频生成:拥有 300 亿参数,能生成长达 204 帧的高质量视频,支持 544×992 分辨率。
  • 双语文本支持:配备双语文本编码器,支持中英文提示词的直接输入,能理解并生成与文本描述相符的视频。
  • 动态与美学优化:通过 3D 全注意力的 DiT 架构和 Flow Matching 训练方法,生成具有强烈动态效果和高美学质量的视频。

Step-Video-T2V 的技术原理

  • 深度压缩的变分自编码器(Video-VAE):实现了 16×16 的空间压缩和 8× 的时间压缩,显著降低了视频生成任务的计算复杂度,同时保持了优异的视频重建质量。
  • 双语文本编码器:模型配备了两个预训练的双语文本编码器,能处理中文和英文提示。Step-Video-T2V 可以直接理解中英文输入,生成与文本描述相符的视频。
  • 基于扩散的 Transformer(DiT)架构:包含 3D 全注意力机制,通过 Flow Matching 训练,将输入噪声逐步去噪为潜在帧,用文本嵌入和时间步作为条件因子。在生成具有强烈运动动态和高美学质量的视频方面表现出色。
  • 直接偏好优化(DPO):为了进一步提升生成视频的质量,引入了视频直接偏好优化(Video-DPO)方法。DPO 通过人类偏好数据对模型进行微调,减少伪影并增强视觉效果,使生成的视频更加平滑和真实。

如何运行 Step-Video-T2V

1. 环境准备

Step-Video-T2V 的运行需要以下环境:

Modelheight/width/framePeak GPU Memory50 steps w flash-attn50 steps w/o flash-attn
Step-Video-T2V544px992px204f77.64 GB743 s1232 s
Step-Video-T2V544px992px136f72.48 GB408 s605 s
  • 需要 NVIDIA GPU 且支持 CUDA。
  • 推荐使用 80GB 内存的 GPU。
  • 测试操作系统:Linux。
  • 文本编码器仅支持 CUDA 能力 sm_80 sm_86 和 sm_90。

2. 安装依赖

git clone https://github.com/stepfun-ai/Step-Video-T2V.git
conda create -n stepvideo python=3.10
conda activate stepvideo

cd Step-Video-T2V
pip install -e .
pip install flash-attn --no-build-isolation  ## flash-attn 是可选的

3. 运行推理脚本

python api/call_remote_server.py --model_dir where_you_download_dir &  ## 假设你有 4 个或更多 GPU。此命令将返回用于文本编码器和 VAE 解码的 API URL。

parallel=4  # 或 parallel=8
url=\'127.0.0.1\'
model_dir=where_you_download_dir

torchrun --nproc_per_node $parallel run_parallel.py --model_dir $model_dir --vae_url $url --caption_url $url  --ulysses_degree $parallel --prompt \"一名宇航员在月球上发现一块石碑,上面印有“stepfun”字样,闪闪发光\" --infer_steps 50  --cfg_scale 9.0 --time_shift 13.0

4. 最佳实践推理设置

Modelsinfer_stepscfg_scaletime_shiftnum_frames
Step-Video-T2V30-509.013.0204
Step-Video-T2V-Turbo (Inference Step Distillation)10-155.017.0204

资源

30115776@qq.com

Pretium lorem primis lectus donec tortor fusce morbi risus curae. Dignissim lacus massa mauris enim mattis magnis senectus montes mollis taciti accumsan semper nullam dapibus netus blandit nibh aliquam metus morbi cras magna vivamus per risus.

Unsloth:开源神器加速AI大模型训练,3090单卡训练Llama-3从5小时缩至30分钟!

深入探讨INT4、INT8、FP8、FP16、FP32量化技术

发表评论