极市直播第134期｜更强VideoChat来袭！InternVideo2：扩展多模态视频理解的基础模型

发布人

#极市直播# 第134期！
主题：更强VideoChat来袭！InternVideo2：扩展多模态视频理解的基础模型

直播嘉宾：王毅
上海人工智能实验室通用视觉中心（OpenGVLab）青年研究员，于香港中文大学获得博士学位，主要研究视频/图像理解和生成。在顶级期刊会议等发表20余篇论文，1篇论文曾入选CVPR2022 best paper finalist。在多个期刊和会议上担任评审。他的研究工作获得了超过3000次引用。曾获得9项国际比赛第一名，包括CVPR具身智能RxR-Habitat赛道冠军等。

➤论文
InternVideo2: Scaling Foundation Models for Multimodal Video Understanding
论文地址：https://arxiv.org/abs/2403.15377
代码地址：https://github.com/OpenGVLab/InternVideo

➤分享大纲
1. 引言：介绍视频理解领域的重要性及其应用场景。概述大型语言模型 (LLM) 和多模态大型语言模型 (MLLM) 的发展趋势。指出将视频有效地嵌入这些大型模型中，并利用其能力来增强视频理解性能的必要性。
2. 相关工作：回顾现有的视频基础模型 (ViFM) 研究，包括视频文本对比学习、掩码视频建模和下一个令牌预测等方法。讨论现有 ViFM 模型的优缺点，并分析其在视频理解任务中的表现。
3. 介绍InternVideo2的框架，包括三个阶段的训练过程。
4. 介绍 InternVideo2 使用的训练数据集， 强调时空一致性在视频片段生成中的重要性，以及多模态标注系统 VidCap 的设计。
5. 实验：评估 InternVideo2 在各种视频相关任务上的表现， 展示 InternVideo2 在不同任务和场景下的性能，并与其他模型进行对比。进行消融实验，分析不同设计选择对模型性能的影响。
6. 结论与讨论：讨论 InternVideo2 的局限性和未来研究方向。分析 InternVideo2 可能存在的偏差，并探讨如何减轻偏差的影响。

打开封面下载高清视频观看高清视频视频下载器

极市直播第134期｜更强VideoChat来袭！InternVideo2：扩展多模态视频理解的基础模型

吹爆！这可能是导师都不讲的大模型面试分享，不愧是华为前首席技术官！2小时带你拆解AI大模型面试的底层逻辑，还通不过面试你来打我！人工智能|机器学习|深度学习

我愿称之为【AI大模型】系统入门天花板教程，适合人工智能专业的LLM主流大模型分享，研究生宝藏课程！！！（文心一言/百度千帆/讯飞星火大模型）

视频ai换脸高圆圆

RAG增效SQL语句生成，开启大模型做数据查询新思路，本地Qwen2-7b模型也能又快又准

【AI绘画】又火了！！2024最强5个LSP不能不知道的涩涩大模型，快速生成，自由画涩图！零基础学习AI绘画必备，建议收藏，模型可分享！

入门必看！9月5日后才开始多模态大模型，没有方向直接照着学，真的分分钟上手人工智能大模型！——机器学习丨深度学习丨计算机视觉丨自然语言处理

极市直播第127期｜高保真人像风格化的秒级生成！揭秘爆火的小红书开源模型 InstantID

2024最新！这可能是目前最系统的【AI大模型】教程了，一口气带你学完LLM主流开源大模型，看完这一下全跑通了！！！（文心一言/百度千帆/讯飞星火大模型）

极市直播第93期｜CVPR22 Oral-聂浪：用深度学习探索图像变形：以图像拼接矩形化为例

保姆级Yolov8教程｜手把手教你实现检测、分类、细分、姿态等

极市直播第109期｜田柯宇：卷积网络上如何做BERT/MAE预训练，ResNet也能用

pytorch教程｜超详细解读并从头复现Attention is all you need！

极市直播第118期｜大模型时代目标检测的三点尝试

模型推理和训练超详细解读：Attention is all you need (Transformer)

极市直播第91期｜港科大陈启峰：图像处理与复原中的可逆性问题

(超爽中英!) 2024公认最全的【吴恩达大模型LLM】系列教程！附代码_LangChain_微调ChatGPT提示词_RAG模型应用_agent_生成式AI

极市直播第105期｜NeurIPS 2022 Spotlight-童湛：基于掩码和重建视频自监督预训练

重发爆赞！李永乐老师深度讲解AI！带你了解电脑如何像人一样思考，带你学习AI前沿技术/人工智能/机器学习/深度学习/神经网络/计算机技术

【极市直播】陈使明：零样本学习的关键问题研究

动画讲解「Transformer」，一步一步深入浅出解释Transformer原理！这可能是我看到过最通俗易懂的Transformer教程了吧！-人工智能

[ValseWebinar]视频行为识别 Action Recognition

北京大学卢菁博士授课精讲：比LLM更重要的多模态学习，多模态大模型入门

论文解读｜ 从头到尾详解 EfficientNet

吴恩达TED演讲：人工智能是如何赋能各个行业的？

[转载]基于FPGA的YOLO算法从入门到精通

吴恩达2023年最新演讲：AI带来的巨大机会

【AI大模型】使用Ollama+Dify搭建一个全能知识库！专属自己！支持多种文件类型，实现本地化大型模型部署，效果非凡！

【多模态大模型高峰论坛】金连文教授：多模态大模型技术及其在OCR的应用

极市直播第115期｜CVPR'23-UniHCP：以人体为中心的统一视觉模型，用99.97%共享的参数完成各类人体相关任务

OpenVINO™_使用指南

极市直播第104期丨西北工业大学田春伟教授：基于结构信息的图像复原方法研究

【极市】许华哲-基于视觉的深度学习的自动驾驶实现模型

【建议收藏】华裔数学家、菲尔茨奖获得者陶哲轩最新演讲：AI 如何改变科学和数学领域？

极市直播第106期｜阿里达摩院：兼顾速度与精度的高效目标检测框架DAMO-YOLO

访谈《人类简史》尤瓦尔·赫拉利：阔别六年重磅力作《智人之上：AI简史》，帮你从大历史视角看待AI对我们的巨大影响

Pytorch教程｜从头开始复现 ResNet！

【极市直播】ICCV 2021 严彬：基于时空Transformer的视觉目标跟踪STARK

【全374集】2024最新清华内部版！终于把AI大模型（LLM）讲清楚了！全程干货讲解，通俗易懂，拿走不谢！

极市直播第98期丨 ECCV2022 Oral-严彬-Unicorn：走向目标跟踪的大一统

【论文导读】多模态大语言模型综述（五）多模态幻觉

论文解读｜从头到尾详解 EfficientNet