文本驱动的视频生成模型的动态定制

发布人

【加群】 一起来刷arxiv，请加vx: pwbot02(请备注：b站arxiv) 
【论文标题】 文本驱动的视频生成模型的动态定制
【论文简述】 本文提出了一种新的方法，可以在文本驱动的视频生成模型中定制新的动作。通过使用少量展示特定动作的视频样本作为输入，该方法学习并泛化输入动作模式，以用于不同的、文本指定的场景。该方法的贡献有三个方面：首先，通过微调现有的文本到视频模型的时间层和空间交叉注意力的键/值，学习一个新的映射关系，将输入示例中的动作与一个新的唯一标记相关联。其次，通过利用预训练模型的运动先验，可以将定制的动作应用于多个人物、多种动作组合、以及不同的视角和时间。最后，为了验证该方法的有效性，作者提出了一种定量评估学习到的定制动作质量的方法，并进行了系统性的研究。实验结果表明，该方法在动作定制任务上显著优于基于外观的定制方法。
【论文链接】 https://arxiv.org/abs/2312.04966

打开封面下载高清视频观看高清视频视频下载器

文本驱动的视频生成模型的动态定制

融合像素与潜在扩散模型的文本到视频生成方法

动态3D高斯分布与合成扩散模型：实现文本到4D动画的生成

生成高质量的长视频：SEINE视频扩散模型

VideoLCM：基于视频潜在一致性模型的高效视频合成方法

基于文本到图像扩散模型的文本到视频生成架构研究

文本驱动的三维人脸生成: 从粗略草图到逼真细节

快速高效文本到图像生成模型

基于扩散模型的可控4D引导视频生成

FreeControl：实现任意文本到图像扩散模型的无训练空间控制

UFOGen: 一步高效文本到图像生成模型

ECLIPSE：一种资源高效的文本到图像先验模型用于图像生成

FineControlNet：基于空间对齐文本控制注入的图像生成细粒度文本控制

面向大型语言模型的有约束文本生成方法

GPT4Motion: 一种基于GPT和Blender的文本到视频生成框架

基于上下文调整的检索增强生成方法

基于自然语言模型的离线强化学习框架LaMo

基于扩散模型的360度全景图像生成任务

分布式大型语言模型的互联网低成本推理与微调

开箱即用的文本理解大模型

开源指令生成：用开源代码提升代码生成模型性能

基于文本生成高质量、多样化的3D资产的研究

Densely Captioned Images: 评估视觉语言模型的新基准

大规模语言模型在多模态音乐理解与生成中的应用

电商领域指令微调大模型

文本到图像一致性模型的有条件控制策略研究

Text-to-Sticker: Style Tailoring Latent Diffusion Models for Human Expression

基于统一视觉语言模型的图像和视频混合学习

多任务学习中数据不平衡问题的优化策略：预训练与联合微调

基于扩散模型的文本到图像合成

Amphion：一款开源的音频、音乐和语音生成工具包

PATHFINDER：基于树搜索的多步推理路径生成方法

基于文本和图像的高质量视频生成技术研究

Alchemist：基于扩散模型的材质属性参数化控制

Toward Joint Language Modeling for Speech Units and Text

HiFi Tuner：基于扩散模型的高保真度个性化图像生成

大规模语言模型结合神经符号模型的生成型神经符号视觉推理

人体高斯模型：文本驱动的三维人体生成与高斯密度调控

LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents

LLAMA PRO：基于Transformer块扩展的渐进式大型语言模型

单张图像到3D的高效生成：基于分摊生成的3D高斯模型