微软公开新视频模型DragNUWA ,一种视频生成模型,它利用文本、图像和轨迹这三个基本控制因素,从语义、空间和时间方面促进高度可控的视频生成
发布人