V
主页
VideoLCM:基于视频潜在一致性模型的高效视频合成方法
发布人
【加群】 一起来刷arxiv,请加vx: pwbot02(请备注:b站arxiv) 【论文标题】 VideoLCM:基于视频潜在一致性模型的高效视频合成方法 【论文简述】 本文提出了一种名为VideoLCM的新型视频合成方法,该方法借鉴了图像生成领域中的一致性模型,旨在提高视频生成的效率和质量。VideoLCM框架基于现有的潜在视频扩散模型,并采用一致性蒸馏技术训练视频潜在一致性模型。实验结果表明,VideoLCM在计算效率、保真度和时间一致性方面具有显著优势。特别地,VideoLCM仅需4个采样步骤即可实现高保真度、流畅的视频合成,展示出实时合成的潜力。此外,VideoLCM还可应用于文本到视频生成和组合视频合成任务。本文为后续研究提供了一个简化且有效的基准,有助于推动快速视频合成领域的发展。 【论文链接】 https://arxiv.org/abs/2312.09109
打开封面
下载高清视频
观看高清视频
视频下载器
FlowVid:利用不完美光流实现一致性视频到视频合成
基于3D高斯展开的实时少样本视角合成
无需相机参数的3D高斯散射:COLMAP-Free 3DGS实现稳健的视角合成与姿态估计
文本到图像一致性模型的有条件控制策略研究
基于潜在变量推断的训练链式思维提升语言模型推理能力
FreeInit:弥合视频扩散模型初始化鸿沟以提升生成视频的时间一致性
Vary: 大型视觉语言模型视觉词汇扩展新方法
大型语言模型潜在知识发现的挑战
闪电注意力-2:大型语言模型处理无限序列长度的高效方法
动态3D高斯分布与合成扩散模型:实现文本到4D动画的生成
文本驱动的视频生成模型的动态定制
稳定分数蒸馏:高质量三维生成新方法
面向潜扩散模型的高效量化策略
FastDiT-3D:高效生成高质量三维点云的扩散变换器
TinyLlama:开源小型语言模型的新突破
单张图像到3D的高效生成:基于分摊生成的3D高斯模型
图神经网络何时预训练?从数据生成角度探讨
DeepCache:无需训练加速扩散模型的创新方法
MobileSAMv2:实现更快速的图像分割
LLaVA-Grounding:实现大型多模态模型的基于视觉的聊天
分布式注意力机制:长文本处理的高效LLM服务系统
通用视觉基础模型:多任务学习实现高效零样本迁移
FineControlNet:基于空间对齐文本控制注入的图像生成细粒度文本控制
VCoder:为多模态大型语言模型提供视觉编码器的多功能视觉编码器
基于多头后验的预训练模型评估方法
大型语言模型生成内容质量自评估提升选择性生成
HiFi Tuner:基于扩散模型的高保真度个性化图像生成
FIND:通用接口实现跨模态任务的高效对齐与交互
LLM Comparator: Visual Analytics for Side-by-Side Evaluation of Large Language M
语言模型对齐新方法:基于对比不似然训练的判断反馈
Patchscopes: A Unifying Framework for Inspecting Hidden Representations of Langu
基于上下文调整的检索增强生成方法
对比激活添加:精确操控大型语言模型行为的新方法
多任务学习中数据不平衡问题的优化策略:预训练与联合微调
Simple and Scalable Strategies to Continually Pre-train Large Language Models
基于认知树的小型语言模型推理能力提升
语义压缩:扩展大型语言模型的上下文窗口
大型语言模型在上下文学习中的可靠性提升:结合监督知识的方法
融合像素与潜在扩散模型的文本到视频生成方法
DiffiT:基于扩散视觉Transformer的图像生成