微软最新论文VASA-1,上传一张图片+任意录音,直接生成数字人嘴替,模型需求RTX4090
发布人