V
主页
【运动生成】MotionLLM 探讨多模态(即视频和动作模态)人类行为理解
发布人
https://lhchen.top/MotionLLM/ https://lhchen.top/MotionLLM/ https://demo.humotionx.com/ https://github.com/IDEA-Research/MotionLLM 探讨多模态(即视频和动作模态)人类行为理解,利用大型语言模型(LLM)的强大功能。与最近为单视频或单动作理解设计的LLM不同,认为理解人类行为需要从视频和动作序列(例如SMPL序列)进行联合建模,以有效捕捉细微的身体部位动态和语义。因此,提出了MotionLLM,一个简单而有效的框架,用于人类动作理解、描述和推理。具体而言,MotionLLM采用统一的视频-动作训练策略,利用现有粗略的视频-文本数据和细粒度的动作-文本数据的互补优势,以获取丰富的时空洞察。此外,收集了一个包含多样化视频、动作、描述和指令的大型数据集MoVid。此外,还提出了MoVid-Bench,具有精心手工标注,用于更好地评估视频和动作上的人类行为理解。广泛的实验表明,MotionLLM在描述、时空理解和推理能力方面具有优势。
打开封面
下载高清视频
观看高清视频
视频下载器
【动作理解】ChatHuman检索增强工具推理的语言驱动3D人类理解
【动作生成】AnySkill: Learning Open-Vocabulary Physical Skill for Interactive Agents
【人脸重建】MonoNPHM: Dynamic Head Reconstruction from Monoculuar Videos
【动作生成】2024 EMAGE: Towards Unified Holistic Co-Speech Gesture Generation
【运动重建】CVPR2024 Oral Robust Human Motion Reconstruction via Diffusion
火火火!多模态生成发文量大涨!最新成果统一Transformer和Diffusion,含金量这一次直接爆表!
【多模态】Mini-Omni 太酷了,实时流式多模态对话,无需ASR和TTS
【动作生成】对抗技能学习ASE: Large-Scale Reusable Adversarial Skill Embeddings for Physicall
【运动生成】HUMANTOMA 新颖的文本驱动的全身运动生成任务
【多模态+大模型+知识图谱】2024完整版:这绝对是B站最全的教程,论文创新点终于解决了!——人工智能/深度学习/aigc/计算机视觉
【表情驱动】2024 FaceTalk: Audio-Driven Motion Diffusion
【大模型LLM】Meta最新发布的Llama3.2来了!Llama3.2的八点重要信息总结,支持多模态,手机也能用!
【论文精讲】精讲Diffusion Policy扩散策略:基于扩散模型的机器人动作生成策略
【视觉动捕】2024 SIGGRAPH GVHMR Human Motion Recovery via Gravity-View Coordinates
超越GPT-4o!Allen AI重磅发布Molmo:最强多模态AI模型!碾压Llama 3.2!
【3D人脸】2024 3D Gaussian Blendshapes for Head Avatar Animation
吴恩达同步更新AI课,第52讲:多模态RAG,与视频聊天。Multimodal RAG: Chat with Videos
多模态大模型真的杀疯了!一口气带你学完Openai CLIP模型、Diffusion模型、对比学习、Huggingface四大模型!真的非常通俗易懂!!
结合Transformer的YOLOv8多模态 融合可见光+红外光(RGB+IR)双输入 完美复现论文【附代码】
【视觉动捕】2024 ECCV Control-Inpainting Diffusion Prior for Human and Camera Motion
【动作绑定】转载,2024 Correspondance-free_online_human_retargeting
【视觉动捕】2024马普所新作Neural Localizer Fields for 3D Human Pose and Shape Estimation
【多模态机器学习 11-777 2022】卡耐基梅隆—中英字幕
强强联合!又一个容易出成果的方向-多模态医学处理!值得每一个医学生发论文的好方向!
【动作绑定】转载,2024 人到机器人的运动重定向 Unsupervised human-to-robot motion retargeting
强烈建议所有医学领域的同学注意了,多模态医学图像处理!超容易出成果的方向,一发一个准!
【视觉动捕】2024 CVPR MultiPly 多人视角动捕,重建衣服褶皱
【3D人脸】2024 3D人脸重建算法排行榜,没想到第一名竟是它
强烈建议想发深度学习论文的同学注意了,迁移学习+多模态融合才是王道!性能简直好到爆炸!
6-目标跟踪SiamRPN
【人体重建】CVPR2024 GuassianAvatar Towards Realistic Human Avatar Modeling from a Sin
YOLOv10多模态 结合Transformer与NMS-Free 融合可见光+红外光(RGB+IR)双输入【代码见评论区】
【视觉动捕】PACE: Human and Camera Motion Estimation from in-the-wild Videos
【论文导读】多模态大语言模型综述(五)多模态幻觉
【表情驱动】2023 CodeTalker: Speech-Driven 3D Facial Animation with Discrete Motion Pr
【3D人体】2024 ECCV Expressive Whole-Body 3D Gaussian Avatar
1-目标跟踪介绍
【视觉动捕】2024InterTrack: Tracking Human Object Interaction without Object Templates
【多模态论文解读】GOT-OCR2.0
【表情驱动】IROS 2024 Driving Animatronic Robot Facial Expression From Speech