Anything in Any Scene: Photorealistic Video Object Insertion

发布人

【加群】 一起来刷arxiv，请加vx: pwbot02(请备注：b站arxiv) 
【论文标题】 Anything in Any Scene: Photorealistic Video Object Insertion
【论文简述】 这篇论文介绍了一个名为“任意场景中的任何物体”的新颖且通用的逼真视频模拟框架，该框架能够无缝地将任何物体插入到一个已存在的动态视频中，并强调物理逼真性。该框架主要包含三个关键过程：1）将逼真的物体与给定场景视频进行整合，确保几何逼真性的适当放置；2）估计天空和环境光照分布，并模拟逼真的阴影以增强光照逼真性；3）使用风格转换网络对最终视频输出进行优化，以实现最大程度的照片逼真性。实验证明，“任意场景中的任何物体”框架能够产生具有出色的几何逼真性、光照逼真性和照片逼真性的模拟视频。通过显著减轻视频数据生成所面临的挑战，我们的框架为获取高质量视频提供了一种高效且经济实惠的解决方案。此外，该框架的应用远远超出了视频数据增强，对虚拟现实、视频编辑和其他各种以视频为中心的应用显示出了巨大的潜力。
【论文链接】 https://arxiv.org/abs/2401.17509

打开封面下载高清视频观看高清视频视频下载器

Anything in Any Scene: Photorealistic Video Object Insertion

逆天啊，VR游戏是给你这样玩的？？？这正经吗？？

Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning

SHINOBI: Shape and Illumination using Neural Object Decomposition via BRDF Optim

An Image is Worth Multiple Words: Learning Object Level Concepts using Multi-Con

生成高质量的长视频：SEINE视频扩散模型

RLVF: Learning from Verbal Feedback without Overgeneralization

幽默b站之全景视频

EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision

GARField: Group Anything with Radiance Fields

黑神话：悟空！全球销量榜首！

Localizing and Editing Knowledge in Text-to-Image Generative Models

融合像素与潜在扩散模型的文本到视频生成方法

基于语言、任务和指标的人工智能模型的一致性分析

Domain Generalization Guided by Gradient Signal to Noise Ratio of Parameters

Implicit Diffusion: Efficient Optimization through Stochastic Sampling

Kosmos-G: Generating Images in Context with Multimodal Large Language Models

基于图神经网络的常数时间复杂度几何距离查询

浅层前馈神经网络模拟注意机制的有效性分析

TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models

基于类增量分组网络的持续音频-视觉学习

Can Large Language Models be Good Path Planners? A Benchmark and Investigation o

P5: Plug-and-Play Persona Prompting for Personalized Response Selection

Tied-Lora: Enhacing parameter efficiency of LoRA with weight tying

BitNet: Scaling 1-bit Transformers for Large Language Models

图像到视频迁移学习中空间和时间学习的解耦

Offline Actor-Critic Reinforcement Learning Scales to Large Models

什么?使命召唤出VR版了吗

解释性语言模型特征发现

MusicAgent: An AI Agent for Music Understanding and Generation with Large Langua

VR-NeRF: High-Fidelity Virtualized Walkable Spaces

微量多语言数据提升多语言指令跟随能力

DreamSpace: Dreaming Your Room Space with Text-Driven Panoramic Texture Propagat

Orca 2: Teaching Small Language Models How to Reason

Vision Mamba: Efficient Visual Representation Learning with Bidirectional State

SOTOPIA-$π$: Interactive Learning of Socially Intelligent Language Agents

基于多头后验的预训练模型评估方法

FLAP: Fast Language-Audio Pre-training

在语境学习中编辑事实知识：方法、策略与挑战

Fast Registration of Photorealistic Avatars for VR Facial Animation

多语言大型语言模型训练数据集CulturaX