CVPR 2023，EVA升级，智源开源更强的视觉预训练模型EVA-2，Vit-L Imagenet精度达到90+！ - 视频下载 Video Downloader

京东 11.11 红包

CVPR 2023，EVA升级，智源开源更强的视觉预训练模型EVA-2，Vit-L Imagenet精度达到90+！

发布人

-

打开封面下载高清视频观看高清视频视频下载器

Meta AI提出新的视觉Transformer结构，相同精度内存减少15倍！代码和模型目前已开源！

商汤科技提出具有双层路由注意力的视觉Transformer，减少原始ViT计算量的同时性能大幅超过Swin Transformer!已被CVPR 2023接收！

鹏城实验室学者提出了一种新的视频语言多模态预训练模型SOTA-VLP，融合了空间时序建模方法，捕获细粒度特征，多项任务取得SOTA！

最强优化器来了！谷歌提出适用于多种任务的新型优化器Lion，在多项任务上以更快的训练速度取得更好的性能！目前已开源！

上交学者提出了一种利用Diffusion模型生合成语义分割数据集，并基于此训练了一个开放词汇分割的模型，效果惊艳！

京东提出全球首个面向遥感任务设计的亿级视觉Transformer大模型，基于百万级遥感数据集进行预训练，下游检测，分割等任务性能SOTA，目前模型和代码已开源！

中山大学学者提出新的视觉Transfomer结构DilateFormer，减少70%计算量的同时性能更优！目前已开源！

亚马逊学者提出Zero-Shot计数新方法！利用预训练的生成模型生成类别原型特征，然后进行patch最邻近搜索，效果远超之前方法！

AI模型的大一统！微软多模态组提出了多模态领域杀疯了的多边形战士BEIT V3!多项视觉，多模态任务达到SOTA!

鹏城实验室开放了45页多模态预训练大模型综述！总结了近5年多模态预训练相关的算法和数据！多模态预训练学习包！

微软提出简单的Open vocabulary检测和分割框架，能够统一处理两种任务，性能超过GLIP等模型！目前已开源！

Self-Attenion的重思考，VIT更快的同时性能更强，Skip Attention通过减少注意力来提升VIT性能！

北京智源多模态团队提出EVA：多模态助力视觉自监督预训练，加入掩码，视觉表征学习更上一层楼！目前代码和模型已开源！

字节提出新的多边形战士，通用基础模型X-FM，将视觉，文本和多模态的训练做到了一个阶段，在多项下游任务表现不错！

CVPR2023 基于掩码的视觉和语言Transformer，能够同时完成以文生图和Image Captioning两种多模态生成任务，且效果非常不错！

NVIDIA放大招了！在生成模型基础上提出Action-GPT：利用GPT实现任意文本生成动作！效果绝了！

字节联合北大提出新的用于卷积网络的掩码自监督预训练方案Spark，性能超越ConvNext V2！代码和模型目前已开源！

阿里发布最强中文图文多模态模型：Chinese CLIP，基于两亿中文图文多模态数据！

里斯本大学学者提出检索增强的Image Captioning 方法，可以在预训练图文编码器的基础上进一步提升Caption性能！

腾讯结合了MAE和CLIP，提出了新的在语言语义上进行掩码重建的预训练框架RILS，超过多种视觉预训练和多模态预训练方案！

一文读懂多模态，230页多模态综述开源了！涵盖了CV，NLP，图文多模态的经典方法和SOTA模型

【大模型LLM】Meta最新发布的Llama3.2来了！Llama3.2的八点重要信息总结，支持多模态，手机也能用！

华为诺亚实验室提出NLIP多模态模型：仅用2900万数据性能超过BLIP和CLIP等亿级数据训练的多模态模型！

腾讯联合浙大提出新的视觉Transformer网络CrossFormer，参数量更少同时性能超过Swin！目前已开源！

伊朗科技大学学者提出用于医学图像识别的骨干网络MedViT，融合了CNN和Transformer的结构，在多项医学图像任务取得不错效果！

Adobe提出超越Stable Diffusion的GAN网络，10亿参数量模型速度吊打Stable Diffusion！目前已被CVPR2023接收！

亚马逊AI Lab提出了新的文本识别结构CLIPTER，能够显著提升当前文本识别算法的效果，达到SOTA精度！

清华智源基于LLM提出更全面精细的多模态图文数据集CAPSFUS-120M！

谷歌基于Imagen提出了Imagen Editor，文本条件编辑效果超过Stable Diffusion和DALL-E 2！

华为诺亚提出视觉文档理解多模态预训练模型WuKong-Reader，在百万级文档数据上进行了预训练，多项下游任务效果SOTA！

FAIR新作，Meta AI提出高效的视觉-语言预训练算法CiT，训练速度提高一个数量级！代码已开源！

继EMO之后又火了！阿里提出Image-to-Video新框架AtomoVideo！

Transformer能否像MobileNets一样快？加州伯克利学者提出Efficient former V2，速度和精度超过之前轻量模型！

仅需0.5M！可集成任意扩散模型！字节提出灵活分辨率适配器ResAdapter！

斯坦福学者提出ControlNet，通过对Stable Diffussion生成结果进行控制，即将补完AIGC工业化的最后一块拼图！

39页视觉问答（VQA）和视觉推理综述论文来了！涉及近30个数据集，50多种经典方法，VQA终于学会了！

北大联合华为诺亚提出了一种增强对比学习的新方法ArCL，通过学习更鲁棒的特征，将MOCO等对比学习方法提升1-2个百分点！目前已被ICLR 2023接收！

谷歌学者提出了简单的DPN策略，在ViT 的Patch Embedding层前后各加一个LN层就能提升ViT性能！

训练ViT和MAE减少一半计算量！北大联合新加坡Sea AI Lab提出新的高效优化器Adan!目前已开源！

解锁CLIP长文本能力！即插即用替换CLIP！上海AI Lab提出Long-CLIP！