V
主页
极市直播第134期|更强VideoChat来袭!InternVideo2:扩展多模态视频理解的基础模型
发布人
#极市直播# 第134期! 主题:更强VideoChat来袭!InternVideo2:扩展多模态视频理解的基础模型 直播嘉宾:王毅 上海人工智能实验室通用视觉中心(OpenGVLab)青年研究员,于香港中文大学获得博士学位,主要研究视频/图像理解和生成。在顶级期刊会议等发表20余篇论文,1篇论文曾入选CVPR2022 best paper finalist。在多个期刊和会议上担任评审。他的研究工作获得了超过3000次引用。曾获得9项国际比赛第一名,包括CVPR具身智能RxR-Habitat赛道冠军等。 ➤论文 InternVideo2: Scaling Foundation Models for Multimodal Video Understanding 论文地址:https://arxiv.org/abs/2403.15377 代码地址:https://github.com/OpenGVLab/InternVideo ➤分享大纲 1. 引言:介绍视频理解领域的重要性及其应用场景。概述大型语言模型 (LLM) 和多模态大型语言模型 (MLLM) 的发展趋势。指出将视频有效地嵌入这些大型模型中,并利用其能力来增强视频理解性能的必要性。 2. 相关工作:回顾现有的视频基础模型 (ViFM) 研究,包括视频文本对比学习、掩码视频建模和下一个令牌预测等方法。讨论现有 ViFM 模型的优缺点,并分析其在视频理解任务中的表现。 3. 介绍InternVideo2的框架,包括三个阶段的训练过程。 4. 介绍 InternVideo2 使用的训练数据集, 强调时空一致性在视频片段生成中的重要性,以及多模态标注系统 VidCap 的设计。 5. 实验:评估 InternVideo2 在各种视频相关任务上的表现, 展示 InternVideo2 在不同任务和场景下的性能,并与其他模型进行对比。进行消融实验,分析不同设计选择对模型性能的影响。 6. 结论与讨论:讨论 InternVideo2 的局限性和未来研究方向。分析 InternVideo2 可能存在的偏差,并探讨如何减轻偏差的影响。
打开封面
下载高清视频
观看高清视频
视频下载器
吹爆!这可能是导师都不讲的大模型面试分享,不愧是华为前首席技术官!2小时带你拆解AI大模型面试的底层逻辑,还通不过面试你来打我!人工智能|机器学习|深度学习
我愿称之为【AI大模型】系统入门天花板教程,适合人工智能专业的LLM主流大模型分享,研究生宝藏课程!!!(文心一言/百度千帆/讯飞星火大模型)
视频ai换脸高圆圆
RAG增效SQL语句生成,开启大模型做数据查询新思路,本地Qwen2-7b模型也能又快又准
【AI绘画】又火了!!2024最强5个LSP不能不知道的涩涩大模型,快速生成,自由画涩图!零基础学习AI绘画必备,建议收藏,模型可分享!
入门必看!9月5日后才开始多模态大模型,没有方向直接照着学,真的分分钟上手人工智能大模型!——机器学习丨深度学习丨计算机视觉丨自然语言处理
极市直播第127期|高保真人像风格化的秒级生成!揭秘爆火的小红书开源模型 InstantID
2024最新!这可能是目前最系统的【AI大模型】教程了,一口气带你学完LLM主流开源大模型,看完这一下全跑通了!!!(文心一言/百度千帆/讯飞星火大模型)
极市直播第93期|CVPR22 Oral-聂浪:用深度学习探索图像变形:以图像拼接矩形化为例
保姆级Yolov8教程|手把手教你实现检测、分类、细分、姿态等
极市直播第109期|田柯宇:卷积网络上如何做BERT/MAE预训练,ResNet也能用
pytorch教程|超详细解读并从头复现Attention is all you need!
极市直播第118期|大模型时代目标检测的三点尝试
模型推理和训练超详细解读:Attention is all you need (Transformer)
极市直播第91期|港科大陈启峰:图像处理与复原中的可逆性问题
(超爽中英!) 2024公认最全的【吴恩达大模型LLM】系列教程!附代码_LangChain_微调ChatGPT提示词_RAG模型应用_agent_生成式AI
极市直播第105期|NeurIPS 2022 Spotlight-童湛:基于掩码和重建视频自监督预训练
重发爆赞!李永乐老师深度讲解AI!带你了解电脑如何像人一样思考,带你学习AI前沿技术/人工智能/机器学习/深度学习/神经网络/计算机技术
【极市直播】陈使明:零样本学习的关键问题研究
动画讲解「Transformer」,一步一步深入浅出解释Transformer原理!这可能是我看到过最通俗易懂的Transformer教程了吧!-人工智能
[ValseWebinar]视频行为识别 Action Recognition
北京大学卢菁博士授课精讲:比LLM更重要的多模态学习,多模态大模型入门
论文解读| 从头到尾详解 EfficientNet
吴恩达TED演讲:人工智能是如何赋能各个行业的?
[转载]基于FPGA的YOLO算法从入门到精通
吴恩达2023年最新演讲:AI带来的巨大机会
【AI大模型】使用Ollama+Dify搭建一个全能知识库!专属自己!支持多种文件类型,实现本地化大型模型部署,效果非凡!
【多模态大模型高峰论坛】金连文教授:多模态大模型技术及其在OCR的应用
极市直播第115期|CVPR'23-UniHCP:以人体为中心的统一视觉模型,用99.97%共享的参数完成各类人体相关任务
OpenVINO™_使用指南
极市直播第104期丨西北工业大学田春伟教授:基于结构信息的图像复原方法研究
【极市】许华哲-基于视觉的深度学习的自动驾驶实现模型
【建议收藏】华裔数学家、菲尔茨奖获得者陶哲轩最新演讲:AI 如何改变科学和数学领域?
极市直播第106期|阿里达摩院:兼顾速度与精度的高效目标检测框架DAMO-YOLO
访谈《人类简史》尤瓦尔·赫拉利:阔别六年重磅力作《智人之上:AI简史》,帮你从大历史视角看待AI对我们的巨大影响
Pytorch教程|从头开始复现 ResNet!
【极市直播】ICCV 2021 严彬:基于时空Transformer的视觉目标跟踪STARK
【全374集】2024最新清华内部版!终于把AI大模型(LLM)讲清楚了!全程干货讲解,通俗易懂,拿走不谢!
极市直播第98期丨 ECCV2022 Oral-严彬-Unicorn:走向目标跟踪的大一统
【论文导读】多模态大语言模型综述(五)多模态幻觉