基于统一视觉语言模型的图像和视频混合学习
发布人