V
主页
京东 11.11 红包
中科大提出All-in-One多模态预训练方法,利用统一的多模态互信息提升多模态性能,下游检测分割性能超过BEIT V3!
发布人
-
打开封面
下载高清视频
观看高清视频
视频下载器
微软提出简单的Open vocabulary检测和分割框架,能够统一处理两种任务,性能超过GLIP等模型!目前已开源!
里斯本大学学者提出检索增强的Image Captioning 方法,可以在预训练图文编码器的基础上进一步提升Caption性能!
腾讯提出一种新的CLIP模型,利用更加soft的跨模态对齐策略,提升CLIP在各项任务上的性能!
阿里发布最强中文图文多模态模型:Chinese CLIP,基于两亿中文图文多模态数据!
谷歌基于多模态预训练模型,提出了一种开放词汇的时序动作检测模型,可以检测视频中任意动作!性能远超之前方法!
腾讯结合了MAE和CLIP,提出了新的在语言语义上进行掩码重建的预训练框架RILS,超过多种视觉预训练和多模态预训练方案!
微软亚研提出了小模型蒸馏方法TinyMIM!MIM预训练小模型性能提升4个百分点!目前模型和代码均已开源!
[理解和生成]的大一统,微软提出BLIP多模态模型,取得下游多项任务SOTA!
Kaiming He团队在多模态领域提出的FLIP,结合MAE Masking Image 策略与CLIP,保证精度的同时 大幅提升训练效率!
Self-Attenion的重思考,VIT更快的同时性能更强,Skip Attention通过减少注意力来提升VIT性能!
鹏城实验室学者提出了一种新的视频语言多模态预训练模型SOTA-VLP,融合了空间时序建模方法,捕获细粒度特征,多项任务取得SOTA!
北大联合华为诺亚提出了一种增强对比学习的新方法ArCL,通过学习更鲁棒的特征,将MOCO等对比学习方法提升1-2个百分点!目前已被ICLR 2023接收!
上海AI Lab提出利用多种预训练模型进行集成学习的新方法CaFo,利用 GPT-3,CLIP,DINO等多种基础预训练模型提升少样本学习能力!
文本引导的虚拟试衣来了,多模态在时尚领域的又一杀器!一键更换模特服装!目前代码模型已开源!
手撕llama32处理图片,喂饭级教程,全程敲写代码,吴恩达AI课程llama32多模态处理辅助,非常详细,适合新手学习
字节联合浙大提出新的视频语言预训练模型TemPVL,能够显著提升下游多模态视频理解任务性能!
最强视觉backbone网络ConvNext v2来了!Meta AI融合了视觉掩码自监督框架,提出新的新的SOTA算法!目前代码和模型已开源!
AI可解释性综述来了,神经网络的黑盒性质经常被许多学者Diss,而可解释性方法让AI不在是完全黑盒!
华为诺亚提出开放域检测新方法DetCLIP,推理效率较GLIP推理效率提升20倍!同时利用wordnet进一步提升了开放词汇的检测性能!
阿里达摩院提出了新的多边形战士模型mPLUG-2,在各种视觉,文本以及多模态任务上均取得不错的性能,超过BEIT V3和EVA!
中山大学学者提出新的视觉Transfomer结构DilateFormer,减少70%计算量的同时性能更优!目前已开源!
商汤科技提出具有双层路由注意力的视觉Transformer,减少原始ViT计算量的同时性能大幅超过Swin Transformer!已被CVPR 2023接收!
阿里多模态团队基于OFA多模态预训练模型,提出最强中文OCR模型,效果惊艳!
阿里联合清华提出了用于医学VQA的新方法RAMM,利用检索增强的策略在医学VQA数据集上取得新SOTA!数据集,代码即将开源!
百度联合VIS提出新的文档图像理解预训练框架StrucTextv2,设计了适用于文档数据的掩码自监督策略,目前已被ICLR 2023接收!
YOLO V6卷土重来,开源了3.0版本!检测性能超过YOLOX以及PP-YOLOE,达到YOLO系列新SOTA!
亚马逊学者提出Zero-Shot计数新方法!利用预训练的生成模型生成类别原型特征,然后进行patch最邻近搜索,效果远超之前方法!
腾讯优图联合北大浙大提出了新的高效移动端网络EMO,很好的权衡了精度和效率,超过Mobile-Former等模型!
神经网络杀疯了,登上nature:35年首次被证明具有泛化能力,能像人类一样思考!人工智能/机器学习/神经网络/深度学习/计算机视觉
统治扩散模型的U-Net结构被取代了!谷歌提出基于Transformer的可扩展扩散模型DiT!计算效率和生成效果均超越ADM和LDM!代码刚刚开源!
Transformer能否像MobileNets一样快?加州伯克利学者提出Efficient former V2,速度和精度超过之前轻量模型!
亚马逊联合牛津提出了用于多模态理解的三元对比学习TCL,在CLIP的基础上提升了多模态模型的跨模态理解能力!
20年预训练大模型98页百科全书来了!从Bert到ChatGPT,涉及CV,NLP,Graph以及多模态等,史上最全综述!
阿里提出了一种联合多个语义分割数据集进行训练的语义分割方法LMSeg,相比单一数据集训练提升明显!
【精选200集】人工智能课程:如何学习人工智能技术?人工智能.大模型.多模态入门教程!pytorch深度学习 Transformer原理详解!人工智能基础课程
一文读懂多模态,230页多模态综述开源了!涵盖了CV,NLP,图文多模态的经典方法和SOTA模型
北京智源多模态团队提出EVA:多模态助力视觉自监督预训练,加入掩码,视觉表征学习更上一层楼!目前代码和模型已开源!
亚马逊学者提出了既能看又能读的多模态场景理解模型,支持传统的VQA以及文本VQA!
全新的全卷积视觉骨干网FCViT,超过ConvNext,目前已开源!
医学图像分割的新SOTA,亚琛工业大学学者提出DAE-Former,利用双重注意力高效实现医学图像分割!