Meta AI提出新的多模态预训练pipeline DiHT，使用更少数据超过CLIP，FILIP等模型！ - 视频下载 Video Downloader

Meta AI提出新的多模态预训练pipeline DiHT，使用更少数据超过CLIP，FILIP等模型！

发布人

-

打开封面下载高清视频观看高清视频视频下载器

斯坦福大学AI博士，揭秘最新多模态AI - 杨俊睿 Jackie，MAUI

图像+音频驱动的口播视频生成！谷歌提出VLOGGER！

幻方发布超强多模态LLM DeepSeek-VL！支持代码，文档OCR等！

谷歌提出利用语言大模型重写caption来提升图文多模态预训练模型，简单技巧即可提升CLIP多项zeroshot 性能！代码已开源！

解锁CLIP长文本能力！即插即用替换CLIP！上海AI Lab提出Long-CLIP！

谷歌基于多模态预训练模型，提出了一种开放词汇的时序动作检测模型，可以检测视频中任意动作！性能远超之前方法！

Stability AI又放大招了！基于SD3蒸馏更快的文生图模型SD3-Turbo！

微软学者整理了100页图文多模态预训练综述，涉及各种多模态模型和应用，并且附带视频教程，需要的同学快来领取！

微软亚研提出了小模型蒸馏方法TinyMIM！MIM预训练小模型性能提升4个百分点！目前模型和代码均已开源！

北京智源多模态团队提出EVA：多模态助力视觉自监督预训练，加入掩码，视觉表征学习更上一层楼！目前代码和模型已开源！

阿里提出用于视频文本理解的高效多模态模型MuLTI，通过设计了Multiway Sampler和多项选择建模任务在多项视频理解任务上达到新SOTA！

【多模态+大模型+知识图谱】2024最好创新的研究方向！绝对是B站最全的教程，论文创新点终于解决了！——人工智能|深度学习|aigc|计算机视觉

Adobe提出基于预训练图像Diffusion模型的视频编辑器，无需训练即可完成视频编辑功能，效果超过Tune-a-Video等方法！

【NeurIPS 2023】华为诺亚提出新的YOLO检测模型:Gold-YOLO,达到YOLO系列新SOTA!!

阿里发布最强中文图文多模态模型：Chinese CLIP，基于两亿中文图文多模态数据！

FAIR新作，Meta AI提出高效的视觉-语言预训练算法CiT，训练速度提高一个数量级！代码已开源！

Mamba卷到多模态了！基于Mamba的多模态大语言模型VL-Mamba来了！

亚马逊联合牛津提出了用于多模态理解的三元对比学习TCL，在CLIP的基础上提升了多模态模型的跨模态理解能力！

LLaVA+SEEM+GLIGEN，微软提出多模态交互原型Demo LLaVA-Interactive！

谷歌基于掩码Transformer提出新的以文生图SOTA模型Muse！生成效果和效率大幅超过Difussion模型和自回归模型！

阿里联合清华提出了用于医学VQA的新方法RAMM，利用检索增强的策略在医学VQA数据集上取得新SOTA！数据集，代码即将开源！

给多模态加Buffer，GNN在视觉语言下游任务的应用综述来了！包含125篇相关论文，涉及Image Captioning，VQA，Retrieval三大方向！

上海AI Lab提出利用多种预训练模型进行集成学习的新方法CaFo，利用 GPT-3，CLIP，DINO等多种基础预训练模型提升少样本学习能力！

微软多模态团队提出了新的语言增强多模态预训练大模型，可以类似BLIP2进行多模态chat，效果很惊艳！

多模态还能助力NLP任务！上交学者提出TILT方法，利用多模态检索图像增强文本表征，多项NLP下游任务达到SOTA！

花了一周时间整理的多模态领域经典必读论文30篇，赶紧点赞收藏！

MIT联合清华提出基于知识的视觉推理多模态模型IPVR，模拟人类视觉推理，取得较好效果！

开源AI项目爆火！大叔秒变少女，GitHub狂揽7.9K星 | 零度解说

AI论文分享，计算机视觉144篇，自然语言处理11篇，多模态19篇，语音处理17篇，时序预测6篇，机器人相关15篇

字节联合浙大提出新的视频语言预训练模型TemPVL，能够显著提升下游多模态视频理解任务性能！

［CVPR 2024］Pose引导的舞蹈视频生成新方法！南洋理工联合微软提出DISCO！

斯坦福学者提出ControlNet，通过对Stable Diffussion生成结果进行控制，即将补完AIGC工业化的最后一块拼图！

亚马逊学者提出了既能看又能读的多模态场景理解模型，支持传统的VQA以及文本VQA！

Kaiming He团队在多模态领域提出的FLIP，结合MAE Masking Image 策略与CLIP，保证精度的同时大幅提升训练效率！

超过IP-Adapter！中科大提出超保真ID个性化AIGC新方法Infinite-ID！

字节联合爱丁堡大学学者提出新的多模态预训练方法MUG，结合MAE和Caption生成

一小时深度解析【Sora分析】视频生成模型，如何做到文本生成视频？详解背后的技术原理与应用案例！！！

Adobe研究院提出了用于视频和音频多模态数据的视听对比学习的自监督策略，在多项视频和音频数据集上达到新SOTA！

几秒钟完成图像定制化生成！清华联合腾讯提出无需微调的AIGC新框架！

华为诺亚提出开放域检测新方法DetCLIP，推理效率较GLIP推理效率提升20倍！同时利用wordnet进一步提升了开放词汇的检测性能！