视频剪辑师集体震惊!快手将AI变成「时空橡皮擦」:画条线就让云朵倒流、汽车飞天,当别人还在用AI生成15秒短视频时,快手与浙大实验室携手,直接改写了视频创作的规则——DragAnything视频PS来了!开源AI控制器让视频「指哪动哪」拖拽任意物体轨迹,多对象独立运动一键生成。
你是否曾经经历过这些崩溃瞬间?
- ✂️ 想调整视频中的汽车行驶路线,却需要重拍整个场景
- 🎞️ 多物体运动不同步,手动K帧至天亮
- 🌆 背景呆板如贴图,缺乏自然动态效果…
这一切都将成为过去!DragAnything,基于Stable Video Diffusion框架,只需拖动物体轨迹即可:
- ✅ 角色前景跳街舞,背景霓虹随之流动
- ✅ 多物体独立控制,汽车转弯时飞鸟同步变向
- ✅ 相机镜头智能跟随,商业大片5分钟搞定
接下来,我们将深入解析:如何通过2D高斯分布+实体表征技术,实现「所拖即所得」的次世代创作?(文末附Colab实战教程)
🚀 快速阅读
DragAnything 是一种基于实体表示的可控视频生成方法,能够精确控制视频中任意物体的运动。
- 核心功能:支持前景、背景及相机运动的灵活控制,生成高质量视频内容。
- 技术原理:利用扩散模型的潜在特征表示视频中的每个实体,并结合用户绘制的轨迹进行运动控制。
DragAnything是什么?

DragAnything 是快手与浙江大学及新加坡国立大学 Show Lab 联手推出的基于实体表示的可控视频生成方法。通过简单的轨迹输入,DragAnything 实现了对视频中任何物体的精确运动控制。与传统方法通过拖动像素点的局限性不同,DragAnything 提供了更加精确且灵活的运动控制方式,支持前景、背景和相机的运动控制,并在 FID、FVD 和用户研究等评估指标上获得了显著的性能提升。
DragAnything 的核心在于其创新的实体表示方法,能够从扩散模型的潜在特征中提取语义信息,精确地表征视频中的每个物体,并结合运动轨迹实现高精度的运动控制。该方法不仅适用于前景物体,还支持背景和相机运动的控制,大大提升了视频生成的灵活性与质量。
DragAnything的主要功能
- 实体级运动控制:能够对视频中的任何实体(包括前景和背景)进行精准的运动控制,不仅限于像素级别的操作。
- 多实体独立控制:支持同时对多个物体进行独立运动控制,每个物体可以根据用户定义的轨迹进行不同的运动。
- 用户友好的交互方式:用户通过简单的交互(如选择区域并拖动)即可实现复杂的运动控制,无需复杂的输入信号(如分割掩码或深度图)。
- 相机运动控制:除了控制视频中的物体外,DragAnything 还能够对相机的运动(如缩放和平移)进行控制。
- 高质量视频生成:在保持运动控制精度的同时,生成高质量的视频内容,适用于各种应用场景。
DragAnything的技术原理
- 实体表示:通过新的实体表示方法,从扩散模型的潜在特征中提取语义信息,精确表征视频中的每个物体,并将物体的语义特征与运动轨迹相结合,实现精准的实体级运动控制。
- 2D 高斯表示:引入2D高斯表示,通过基于高斯分布对物体的中心区域赋予更高权重,减少边缘像素的影响,从而实现更加自然的运动控制。
- 扩散模型:基于扩散模型架构(如Stable Video Diffusion),利用强大的生成能力与去噪能力生成高质量视频内容,结合用户输入的运动轨迹与实体表示,逐步去除噪声以重建视频帧。
- 轨迹引导的运动控制:用户通过绘制简单的轨迹来定义物体的运动路径,DragAnything 将轨迹与实体表示结合,生成符合用户需求的视频内容,避免了直接操作像素点的局限性,实现更自然精确的运动控制。
- 损失函数与优化:在训练过程中,使用带掩码的均方误差(MSE)损失函数,专注于优化用户指定区域的运动控制,同时保持其他区域的生成质量。
GitHub 仓库:https://github.com/showlab/DragAnything