中科大提出All-in-One多模态预训练方法，利用统一的多模态互信息提升多模态性能，下游检测分割性能超过BEIT V3！ - 视频下载 Video Downloader

京东 11.11 红包

中科大提出All-in-One多模态预训练方法，利用统一的多模态互信息提升多模态性能，下游检测分割性能超过BEIT V3！

发布人

-

打开封面下载高清视频观看高清视频视频下载器

微软提出简单的Open vocabulary检测和分割框架，能够统一处理两种任务，性能超过GLIP等模型！目前已开源！

里斯本大学学者提出检索增强的Image Captioning 方法，可以在预训练图文编码器的基础上进一步提升Caption性能！

腾讯提出一种新的CLIP模型，利用更加soft的跨模态对齐策略，提升CLIP在各项任务上的性能！

阿里发布最强中文图文多模态模型：Chinese CLIP，基于两亿中文图文多模态数据！

谷歌基于多模态预训练模型，提出了一种开放词汇的时序动作检测模型，可以检测视频中任意动作！性能远超之前方法！

腾讯结合了MAE和CLIP，提出了新的在语言语义上进行掩码重建的预训练框架RILS，超过多种视觉预训练和多模态预训练方案！

微软亚研提出了小模型蒸馏方法TinyMIM！MIM预训练小模型性能提升4个百分点！目前模型和代码均已开源！

[理解和生成]的大一统，微软提出BLIP多模态模型，取得下游多项任务SOTA!

Kaiming He团队在多模态领域提出的FLIP，结合MAE Masking Image 策略与CLIP，保证精度的同时大幅提升训练效率！

Self-Attenion的重思考，VIT更快的同时性能更强，Skip Attention通过减少注意力来提升VIT性能！

鹏城实验室学者提出了一种新的视频语言多模态预训练模型SOTA-VLP，融合了空间时序建模方法，捕获细粒度特征，多项任务取得SOTA！

北大联合华为诺亚提出了一种增强对比学习的新方法ArCL，通过学习更鲁棒的特征，将MOCO等对比学习方法提升1-2个百分点！目前已被ICLR 2023接收！

上海AI Lab提出利用多种预训练模型进行集成学习的新方法CaFo，利用 GPT-3，CLIP，DINO等多种基础预训练模型提升少样本学习能力！

文本引导的虚拟试衣来了，多模态在时尚领域的又一杀器！一键更换模特服装！目前代码模型已开源！

手撕llama32处理图片，喂饭级教程，全程敲写代码，吴恩达AI课程llama32多模态处理辅助，非常详细，适合新手学习

字节联合浙大提出新的视频语言预训练模型TemPVL，能够显著提升下游多模态视频理解任务性能！

最强视觉backbone网络ConvNext v2来了！Meta AI融合了视觉掩码自监督框架，提出新的新的SOTA算法！目前代码和模型已开源！

AI可解释性综述来了，神经网络的黑盒性质经常被许多学者Diss，而可解释性方法让AI不在是完全黑盒！

华为诺亚提出开放域检测新方法DetCLIP，推理效率较GLIP推理效率提升20倍！同时利用wordnet进一步提升了开放词汇的检测性能！

阿里达摩院提出了新的多边形战士模型mPLUG-2，在各种视觉，文本以及多模态任务上均取得不错的性能，超过BEIT V3和EVA！

中山大学学者提出新的视觉Transfomer结构DilateFormer，减少70%计算量的同时性能更优！目前已开源！

商汤科技提出具有双层路由注意力的视觉Transformer，减少原始ViT计算量的同时性能大幅超过Swin Transformer!已被CVPR 2023接收！

阿里多模态团队基于OFA多模态预训练模型，提出最强中文OCR模型，效果惊艳！

阿里联合清华提出了用于医学VQA的新方法RAMM，利用检索增强的策略在医学VQA数据集上取得新SOTA！数据集，代码即将开源！

百度联合VIS提出新的文档图像理解预训练框架StrucTextv2，设计了适用于文档数据的掩码自监督策略，目前已被ICLR 2023接收！

YOLO V6卷土重来，开源了3.0版本！检测性能超过YOLOX以及PP-YOLOE，达到YOLO系列新SOTA！

亚马逊学者提出Zero-Shot计数新方法！利用预训练的生成模型生成类别原型特征，然后进行patch最邻近搜索，效果远超之前方法！

腾讯优图联合北大浙大提出了新的高效移动端网络EMO，很好的权衡了精度和效率，超过Mobile-Former等模型！

神经网络杀疯了，登上nature：35年首次被证明具有泛化能力，能像人类一样思考！人工智能/机器学习/神经网络/深度学习/计算机视觉

统治扩散模型的U-Net结构被取代了！谷歌提出基于Transformer的可扩展扩散模型DiT！计算效率和生成效果均超越ADM和LDM！代码刚刚开源！

Transformer能否像MobileNets一样快？加州伯克利学者提出Efficient former V2，速度和精度超过之前轻量模型！

亚马逊联合牛津提出了用于多模态理解的三元对比学习TCL，在CLIP的基础上提升了多模态模型的跨模态理解能力！

20年预训练大模型98页百科全书来了！从Bert到ChatGPT，涉及CV，NLP，Graph以及多模态等，史上最全综述！

阿里提出了一种联合多个语义分割数据集进行训练的语义分割方法LMSeg，相比单一数据集训练提升明显！

【精选200集】人工智能课程:如何学习人工智能技术?人工智能.大模型.多模态入门教程!pytorch深度学习 Transformer原理详解!人工智能基础课程

一文读懂多模态，230页多模态综述开源了！涵盖了CV，NLP，图文多模态的经典方法和SOTA模型

北京智源多模态团队提出EVA：多模态助力视觉自监督预训练，加入掩码，视觉表征学习更上一层楼！目前代码和模型已开源！

亚马逊学者提出了既能看又能读的多模态场景理解模型，支持传统的VQA以及文本VQA！

全新的全卷积视觉骨干网FCViT，超过ConvNext，目前已开源！

医学图像分割的新SOTA，亚琛工业大学学者提出DAE-Former,利用双重注意力高效实现医学图像分割！