V
主页
Anything in Any Scene: Photorealistic Video Object Insertion
发布人
【加群】 一起来刷arxiv,请加vx: pwbot02(请备注:b站arxiv) 【论文标题】 Anything in Any Scene: Photorealistic Video Object Insertion 【论文简述】 这篇论文介绍了一个名为“任意场景中的任何物体”的新颖且通用的逼真视频模拟框架,该框架能够无缝地将任何物体插入到一个已存在的动态视频中,并强调物理逼真性。该框架主要包含三个关键过程:1)将逼真的物体与给定场景视频进行整合,确保几何逼真性的适当放置;2)估计天空和环境光照分布,并模拟逼真的阴影以增强光照逼真性;3)使用风格转换网络对最终视频输出进行优化,以实现最大程度的照片逼真性。实验证明,“任意场景中的任何物体”框架能够产生具有出色的几何逼真性、光照逼真性和照片逼真性的模拟视频。通过显著减轻视频数据生成所面临的挑战,我们的框架为获取高质量视频提供了一种高效且经济实惠的解决方案。此外,该框架的应用远远超出了视频数据增强,对虚拟现实、视频编辑和其他各种以视频为中心的应用显示出了巨大的潜力。 【论文链接】 https://arxiv.org/abs/2401.17509
打开封面
下载高清视频
观看高清视频
视频下载器
逆天啊,VR游戏是给你这样玩的???这正经吗??
Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning
SHINOBI: Shape and Illumination using Neural Object Decomposition via BRDF Optim
An Image is Worth Multiple Words: Learning Object Level Concepts using Multi-Con
生成高质量的长视频:SEINE视频扩散模型
RLVF: Learning from Verbal Feedback without Overgeneralization
幽默b站之全景视频
EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision
GARField: Group Anything with Radiance Fields
黑神话:悟空!全球销量榜首!
Localizing and Editing Knowledge in Text-to-Image Generative Models
融合像素与潜在扩散模型的文本到视频生成方法
基于语言、任务和指标的人工智能模型的一致性分析
Domain Generalization Guided by Gradient Signal to Noise Ratio of Parameters
Implicit Diffusion: Efficient Optimization through Stochastic Sampling
Kosmos-G: Generating Images in Context with Multimodal Large Language Models
基于图神经网络的常数时间复杂度几何距离查询
浅层前馈神经网络模拟注意机制的有效性分析
TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models
基于类增量分组网络的持续音频-视觉学习
Can Large Language Models be Good Path Planners? A Benchmark and Investigation o
P5: Plug-and-Play Persona Prompting for Personalized Response Selection
Tied-Lora: Enhacing parameter efficiency of LoRA with weight tying
BitNet: Scaling 1-bit Transformers for Large Language Models
图像到视频迁移学习中空间和时间学习的解耦
Offline Actor-Critic Reinforcement Learning Scales to Large Models
什么?使命召唤出VR版了吗
解释性语言模型特征发现
MusicAgent: An AI Agent for Music Understanding and Generation with Large Langua
VR-NeRF: High-Fidelity Virtualized Walkable Spaces
微量多语言数据提升多语言指令跟随能力
DreamSpace: Dreaming Your Room Space with Text-Driven Panoramic Texture Propagat
Orca 2: Teaching Small Language Models How to Reason
Vision Mamba: Efficient Visual Representation Learning with Bidirectional State
SOTOPIA-$π$: Interactive Learning of Socially Intelligent Language Agents
基于多头后验的预训练模型评估方法
FLAP: Fast Language-Audio Pre-training
在语境学习中编辑事实知识:方法、策略与挑战
Fast Registration of Photorealistic Avatars for VR Facial Animation
多语言大型语言模型训练数据集CulturaX