DragAnything视频PS来了!开源AI控制器让视频「指哪动哪」拖拽任意物体轨迹,多对象独立运动一键生成

Written by 30115776@qq.com

视频剪辑师集体震惊!快手将AI变成「时空橡皮擦」:画条线就让云朵倒流、汽车飞天,当别人还在用AI生成15秒短视频时,快手与浙大实验室携手,直接改写了视频创作的规则——DragAnything视频PS来了!开源AI控制器让视频「指哪动哪」拖拽任意物体轨迹,多对象独立运动一键生成。

你是否曾经经历过这些崩溃瞬间?

  • ✂️ 想调整视频中的汽车行驶路线,却需要重拍整个场景
  • 🎞️ 多物体运动不同步,手动K帧至天亮
  • 🌆 背景呆板如贴图,缺乏自然动态效果…

这一切都将成为过去!DragAnything,基于Stable Video Diffusion框架,只需拖动物体轨迹即可:

  • ✅ 角色前景跳街舞,背景霓虹随之流动
  • ✅ 多物体独立控制,汽车转弯时飞鸟同步变向
  • ✅ 相机镜头智能跟随,商业大片5分钟搞定

接下来,我们将深入解析:如何通过2D高斯分布+实体表征技术,实现「所拖即所得」的次世代创作?(文末附Colab实战教程)

🚀 快速阅读

DragAnything 是一种基于实体表示的可控视频生成方法,能够精确控制视频中任意物体的运动。

  1. 核心功能:支持前景、背景及相机运动的灵活控制,生成高质量视频内容。
  2. 技术原理:利用扩散模型的潜在特征表示视频中的每个实体,并结合用户绘制的轨迹进行运动控制。

DragAnything是什么?

DragAnything 是快手与浙江大学及新加坡国立大学 Show Lab 联手推出的基于实体表示的可控视频生成方法。通过简单的轨迹输入,DragAnything 实现了对视频中任何物体的精确运动控制。与传统方法通过拖动像素点的局限性不同,DragAnything 提供了更加精确且灵活的运动控制方式,支持前景、背景和相机的运动控制,并在 FID、FVD 和用户研究等评估指标上获得了显著的性能提升。

DragAnything 的核心在于其创新的实体表示方法,能够从扩散模型的潜在特征中提取语义信息,精确地表征视频中的每个物体,并结合运动轨迹实现高精度的运动控制。该方法不仅适用于前景物体,还支持背景和相机运动的控制,大大提升了视频生成的灵活性与质量。

DragAnything的主要功能

  • 实体级运动控制:能够对视频中的任何实体(包括前景和背景)进行精准的运动控制,不仅限于像素级别的操作。
  • 多实体独立控制:支持同时对多个物体进行独立运动控制,每个物体可以根据用户定义的轨迹进行不同的运动。
  • 用户友好的交互方式:用户通过简单的交互(如选择区域并拖动)即可实现复杂的运动控制,无需复杂的输入信号(如分割掩码或深度图)。
  • 相机运动控制:除了控制视频中的物体外,DragAnything 还能够对相机的运动(如缩放和平移)进行控制。
  • 高质量视频生成:在保持运动控制精度的同时,生成高质量的视频内容,适用于各种应用场景。

DragAnything的技术原理

  • 实体表示:通过新的实体表示方法,从扩散模型的潜在特征中提取语义信息,精确表征视频中的每个物体,并将物体的语义特征与运动轨迹相结合,实现精准的实体级运动控制。
  • 2D 高斯表示:引入2D高斯表示,通过基于高斯分布对物体的中心区域赋予更高权重,减少边缘像素的影响,从而实现更加自然的运动控制。
  • 扩散模型:基于扩散模型架构(如Stable Video Diffusion),利用强大的生成能力与去噪能力生成高质量视频内容,结合用户输入的运动轨迹与实体表示,逐步去除噪声以重建视频帧。
  • 轨迹引导的运动控制:用户通过绘制简单的轨迹来定义物体的运动路径,DragAnything 将轨迹与实体表示结合,生成符合用户需求的视频内容,避免了直接操作像素点的局限性,实现更自然精确的运动控制。
  • 损失函数与优化:在训练过程中,使用带掩码的均方误差(MSE)损失函数,专注于优化用户指定区域的运动控制,同时保持其他区域的生成质量。

GitHub 仓库https://github.com/showlab/DragAnything

30115776@qq.com

Pretium lorem primis lectus donec tortor fusce morbi risus curae. Dignissim lacus massa mauris enim mattis magnis senectus montes mollis taciti accumsan semper nullam dapibus netus blandit nibh aliquam metus morbi cras magna vivamus per risus.

FoloUp:开源语音面试平台,智能生成岗位需求,AI追问逻辑漏洞

Cline:VSCode最强开源AI编程助手,一键生成代码、自动执行终端、操控浏览器…

发表评论