腾讯结合了MAE和CLIP，提出了新的在语言语义上进行掩码重建的预训练框架RILS，超过多种视觉预训练和多模态预训练方案！ - 视频下载 Video Downloader

腾讯结合了MAE和CLIP，提出了新的在语言语义上进行掩码重建的预训练框架RILS，超过多种视觉预训练和多模态预训练方案！

发布人

-

打开封面下载高清视频观看高清视频视频下载器

微软亚研提出了小模型蒸馏方法TinyMIM！MIM预训练小模型性能提升4个百分点！目前模型和代码均已开源！

鹏城实验室学者提出了一种新的视频语言多模态预训练模型SOTA-VLP，融合了空间时序建模方法，捕获细粒度特征，多项任务取得SOTA！

多模态还能助力NLP任务！上交学者提出TILT方法，利用多模态检索图像增强文本表征，多项NLP下游任务达到SOTA！

给多模态加Buffer，GNN在视觉语言下游任务的应用综述来了！包含125篇相关论文，涉及Image Captioning，VQA，Retrieval三大方向！

中科大提出All-in-One多模态预训练方法，利用统一的多模态互信息提升多模态性能，下游检测分割性能超过BEIT V3！

阿里多模态团队基于OFA多模态预训练模型，提出最强中文OCR模型，效果惊艳！

仅需0.5M！可集成任意扩散模型！字节提出灵活分辨率适配器ResAdapter！

北京智源多模态团队提出EVA：多模态助力视觉自监督预训练，加入掩码，视觉表征学习更上一层楼！目前代码和模型已开源！

解锁CLIP长文本能力！即插即用替换CLIP！上海AI Lab提出Long-CLIP！

图像+音频驱动的口播视频生成！谷歌提出VLOGGER！

继EMO之后又火了！阿里提出Image-to-Video新框架AtomoVideo！

谷歌基于多模态预训练模型，提出了一种开放词汇的时序动作检测模型，可以检测视频中任意动作！性能远超之前方法！

阿里发布最强中文图文多模态模型：Chinese CLIP，基于两亿中文图文多模态数据！

微软提出简单的Open vocabulary检测和分割框架，能够统一处理两种任务，性能超过GLIP等模型！目前已开源！

字节提出新的多边形战士，通用基础模型X-FM，将视觉，文本和多模态的训练做到了一个阶段，在多项下游任务表现不错！

微软多模态团队提出了新的语言增强多模态预训练大模型，可以类似BLIP2进行多模态chat，效果很惊艳！

字节联合浙大提出新的视频语言预训练模型TemPVL，能够显著提升下游多模态视频理解任务性能！

阿里提出用于视频文本理解的高效多模态模型MuLTI，通过设计了Multiway Sampler和多项选择建模任务在多项视频理解任务上达到新SOTA！

即插即用的inpainting模型！腾讯提出BrushNet！

阿里达摩院提出了新的多边形战士模型mPLUG-2，在各种视觉，文本以及多模态任务上均取得不错的性能，超过BEIT V3和EVA！

字节联合南开大学提出了用于视频动作识别的自监督框架CMAE-V，融合了MAE和对比学习，在视频动作识别任务取得SOTA!

花了一周时间整理的多模态领域经典必读论文30篇，赶紧点赞收藏！

斯坦福学者提出ControlNet，通过对Stable Diffussion生成结果进行控制，即将补完AIGC工业化的最后一块拼图！

阿里达摩院提出新的视频文本预训练框架，通过预训练，其在视频下游任务取得多项SOTA!

上海AI Lab提出利用多种预训练模型进行集成学习的新方法CaFo，利用 GPT-3，CLIP，DINO等多种基础预训练模型提升少样本学习能力！

39页视觉问答（VQA）和视觉推理综述论文来了！涉及近30个数据集，50多种经典方法，VQA终于学会了！

Adobe提出基于预训练图像Diffusion模型的视频编辑器，无需训练即可完成视频编辑功能，效果超过Tune-a-Video等方法！

字节联合爱丁堡大学提出新的视觉预训练方法MUG，取得新的SOTA！模型和代码均已开源，快来领取！

华为诺亚实验室提出NLIP多模态模型：仅用2900万数据性能超过BLIP和CLIP等亿级数据训练的多模态模型！

3D版CLIP横空出世，助力各种点云任务！涨点效果明显！

文本引导的虚拟试衣来了，多模态在时尚领域的又一杀器！一键更换模特服装！目前代码模型已开源！

幻方发布超强多模态LLM DeepSeek-VL！支持代码，文档OCR等！

谷歌基于掩码Transformer提出新的以文生图SOTA模型Muse！生成效果和效率大幅超过Difussion模型和自回归模型！

腾讯提出一种新的CLIP模型，利用更加soft的跨模态对齐策略，提升CLIP在各项任务上的性能！

DeepMind提出了新的半监督学习方法SEMPPL，结合当前的对比学习自监督学习方案，表征能力得到进一步提升！

Adobe研究院提出了用于视频和音频多模态数据的视听对比学习的自监督策略，在多项视频和音频数据集上达到新SOTA！

微软联合北大提出了首个用于音视频联合生成的多模态扩散模型MM-Difussion！可以给定视频生成音频或给定音频生成视频！

微软提出了KOSMOS-G，利用MLLM来指导通用视觉-语言输入生成图像！！

CLIP可以直接拿来做文本检测了！腾讯优图提出TCM结构，文本检测能力在多个数据集上均有较大提升！目前以被CVPR2023接收！

华为诺亚提出开放域检测新方法DetCLIP，推理效率较GLIP推理效率提升20倍！同时利用wordnet进一步提升了开放词汇的检测性能！