V
主页
基于统一视觉语言模型的图像和视频混合学习
发布人
【加群】 一起来刷arxiv,请加vx: pwbot02(请备注:b站arxiv) 【彩蛋】 可以试试/ask + 你的提问和本篇论文进行交流 【论文标题】 Video-LLaVA: Learning United Visual Representation by Alignment Before Projection 【论文简述】 本文介绍了一种基于统一视觉语言模型(LVLM)的方法,该方法将图像和视频统一编码为语言特征空间,从而提升了视觉语言理解的多项下游任务的性能表现。与现有方法将图像和视频编码为分离的特征空间并输入到大型语言模型不同,由于图像和视频缺乏统一的标记化处理,即在投影之前存在错位,使得大型语言模型难以从数个较差的投影层中学习多模态交互。为了解决这个问题,我们将视觉表征统一到语言特征空间中,将基于基础语言模型的LVLM推进到一个统一的LVLM。结果,我们建立了一个简单但鲁棒的LVLM基准模型Video-LLaVA,它从图像和视频的混合数据集中学习,相互增强。Video-LLaVA在5个图像问答数据集和4个图像基准工具箱的9个图像基准上取得了卓越的性能。此外,我们的Video-LLaVA在MSRVTT、MSVD、TGIF和ActivityNet上的表现也超过了Video-ChatGPT分别为5.8%、9.9%、18.6%和10.1%。值得注意的是,广泛的实验证明,Video-LLaVA在统一的视觉表征中互惠图像和视频,优于专门用于图像或视频的模型。 【引导阅读的问题】 如何将图像和视频的统一编码应用于视觉语言理解任务中? 【论文链接】 https://arxiv.org/pdf/2311.10122
打开封面
下载高清视频
观看高清视频
视频下载器
人工智能视觉语言模型对视觉错觉的感知
通用视觉基础模型:多任务学习实现高效零样本迁移
基于协同学习的可组合视觉语言模型
大规模语言模型的训练与优化研究
SPHINX: 一种多模态大语言模型的联合混合方法
基于认知树的小型语言模型推理能力提升
基于文本到图像扩散模型的文本到视频生成架构研究
Densely Captioned Images: 评估视觉语言模型的新基准
快速高效文本到图像生成模型
大规模语言模型结合神经符号模型的生成型神经符号视觉推理
动物伪装研究: 评估和生成有效的伪装图像和视频
蜜蜜蜂:一种局部增强的多模态大型语言模型投影器
直方图均衡化
VCoder:为多模态大型语言模型提供视觉编码器的多功能视觉编码器
基于自然语言模型的离线强化学习框架LaMo
LoRAShear:一种有效的大型语言模型结构压缩方法
VisDiff:用自然语言描述图像集差异
小模型大智慧:TinyGSM助力小规模语言模型在数学推理上超越大规模模型
DiffMorpher:释放扩散模型潜能实现平滑图像变形
图像生成美学优化方法研究
TiC-CLIP: Continual Training of CLIP Models
基于科学图像分析GPT-Vision的生成能力和局限性
基于语言、任务和指标的人工智能模型的一致性分析
基于语言模型的知识探测和推理方法
多语言大型语言模型训练数据集CulturaX
【AI Drive】ACL 2021:利用对比学习增强预训练语言模型的实体与实体间关系理解
利用FP8低位数据格式高效地训练大型语言模型
分布式大型语言模型的互联网低成本推理与微调
HiFi Tuner:基于扩散模型的高保真度个性化图像生成
基于扩散模型的文本到图像合成
利用数据中心方法提升大型语言模型在金融领域的应用
文本驱动的视频生成模型的动态定制
语义压缩:扩展大型语言模型的上下文窗口
用视觉语言模型自动生成奖励函数,训练多目标强化学习智能体
大型语言模型在链式思维推理中的应用
大规模语言模型的Transformer架构及其批处理技术
单张图像到3D的高效生成:基于分摊生成的3D高斯模型
共训练和共蒸馏:提高预训练语言模型性能与推理速度的新框架
大型语言模型生成内容质量自评估提升选择性生成
语言模型在数学问题求解中的学习和纠错能力研究