【运动生成】MotionLLM 探讨多模态（即视频和动作模态）人类行为理解

发布人

https://lhchen.top/MotionLLM/
https://lhchen.top/MotionLLM/
https://demo.humotionx.com/
https://github.com/IDEA-Research/MotionLLM

探讨多模态（即视频和动作模态）人类行为理解，利用大型语言模型（LLM）的强大功能。与最近为单视频或单动作理解设计的LLM不同，认为理解人类行为需要从视频和动作序列（例如SMPL序列）进行联合建模，以有效捕捉细微的身体部位动态和语义。因此，提出了MotionLLM，一个简单而有效的框架，用于人类动作理解、描述和推理。具体而言，MotionLLM采用统一的视频-动作训练策略，利用现有粗略的视频-文本数据和细粒度的动作-文本数据的互补优势，以获取丰富的时空洞察。此外，收集了一个包含多样化视频、动作、描述和指令的大型数据集MoVid。此外，还提出了MoVid-Bench，具有精心手工标注，用于更好地评估视频和动作上的人类行为理解。广泛的实验表明，MotionLLM在描述、时空理解和推理能力方面具有优势。

打开封面下载高清视频观看高清视频视频下载器

【运动生成】MotionLLM 探讨多模态（即视频和动作模态）人类行为理解

【动作理解】ChatHuman检索增强工具推理的语言驱动3D人类理解

【动作生成】AnySkill: Learning Open-Vocabulary Physical Skill for Interactive Agents

【人脸重建】MonoNPHM: Dynamic Head Reconstruction from Monoculuar Videos

【动作生成】2024 EMAGE: Towards Unified Holistic Co-Speech Gesture Generation

【运动重建】CVPR2024 Oral Robust Human Motion Reconstruction via Diffusion

火火火！多模态生成发文量大涨！最新成果统一Transformer和Diffusion，含金量这一次直接爆表！

【多模态】Mini-Omni 太酷了，实时流式多模态对话，无需ASR和TTS

【动作生成】对抗技能学习ASE: Large-Scale Reusable Adversarial Skill Embeddings for Physicall

【运动生成】HUMANTOMA 新颖的文本驱动的全身运动生成任务

【多模态+大模型+知识图谱】2024完整版：这绝对是B站最全的教程，论文创新点终于解决了！——人工智能/深度学习/aigc/计算机视觉

【表情驱动】2024 FaceTalk: Audio-Driven Motion Diffusion

【大模型LLM】Meta最新发布的Llama3.2来了！Llama3.2的八点重要信息总结，支持多模态，手机也能用！

【论文精讲】精讲Diffusion Policy扩散策略：基于扩散模型的机器人动作生成策略

【视觉动捕】2024 SIGGRAPH GVHMR Human Motion Recovery via Gravity-View Coordinates

超越GPT-4o！Allen AI重磅发布Molmo：最强多模态AI模型！碾压Llama 3.2！

【3D人脸】2024 3D Gaussian Blendshapes for Head Avatar Animation

吴恩达同步更新AI课，第52讲：多模态RAG,与视频聊天。Multimodal RAG: Chat with Videos

多模态大模型真的杀疯了！一口气带你学完Openai CLIP模型、Diffusion模型、对比学习、Huggingface四大模型！真的非常通俗易懂！！

结合Transformer的YOLOv8多模态 融合可见光+红外光(RGB+IR)双输入 完美复现论文【附代码】

【视觉动捕】2024 ECCV Control-Inpainting Diffusion Prior for Human and Camera Motion

【动作绑定】转载，2024 Correspondance-free_online_human_retargeting

【视觉动捕】2024马普所新作Neural Localizer Fields for 3D Human Pose and Shape Estimation

【多模态机器学习 11-777 2022】卡耐基梅隆—中英字幕

强强联合！又一个容易出成果的方向-多模态医学处理！值得每一个医学生发论文的好方向！

【动作绑定】转载，2024 人到机器人的运动重定向 Unsupervised human-to-robot motion retargeting

强烈建议所有医学领域的同学注意了，多模态医学图像处理！超容易出成果的方向，一发一个准！

【视觉动捕】2024 CVPR MultiPly 多人视角动捕，重建衣服褶皱

【3D人脸】2024 3D人脸重建算法排行榜，没想到第一名竟是它

强烈建议想发深度学习论文的同学注意了，迁移学习+多模态融合才是王道！性能简直好到爆炸！

6-目标跟踪SiamRPN

【人体重建】CVPR2024 GuassianAvatar Towards Realistic Human Avatar Modeling from a Sin

YOLOv10多模态 结合Transformer与NMS-Free 融合可见光+红外光(RGB+IR)双输入【代码见评论区】

【视觉动捕】PACE: Human and Camera Motion Estimation from in-the-wild Videos

【论文导读】多模态大语言模型综述（五）多模态幻觉

【表情驱动】2023 CodeTalker: Speech-Driven 3D Facial Animation with Discrete Motion Pr

【3D人体】2024 ECCV Expressive Whole-Body 3D Gaussian Avatar

1-目标跟踪介绍

【视觉动捕】2024InterTrack: Tracking Human Object Interaction without Object Templates

【多模态论文解读】GOT-OCR2.0

【表情驱动】IROS 2024 Driving Animatronic Robot Facial Expression From Speech

结合Transformer的YOLOv8多模态融合可见光+红外光(RGB+IR)双输入完美复现论文【附代码】

YOLOv10多模态结合Transformer与NMS-Free 融合可见光+红外光(RGB+IR)双输入【代码见评论区】