里斯本大学学者提出检索增强的Image Captioning 方法，可以在预训练图文编码器的基础上进一步提升Caption性能！ - 视频下载 Video Downloader

里斯本大学学者提出检索增强的Image Captioning 方法，可以在预训练图文编码器的基础上进一步提升Caption性能！

发布人

-

打开封面下载高清视频观看高清视频视频下载器

中科大提出All-in-One多模态预训练方法，利用统一的多模态互信息提升多模态性能，下游检测分割性能超过BEIT V3！

上交学者提出了一种利用Diffusion模型生合成语义分割数据集，并基于此训练了一个开放词汇分割的模型，效果惊艳！

Kaiming He团队在多模态领域提出的FLIP，结合MAE Masking Image 策略与CLIP，保证精度的同时大幅提升训练效率！

Diffusion Model 可以用来进行图像数据增强了！卡内基梅隆大学学者提出DA-Fusion方法，提升了数据增强产生多样性高级语义样本的能力！

微软多模态团队提出了新的语言增强多模态预训练大模型，可以类似BLIP2进行多模态chat，效果很惊艳！

阿里发布最强中文图文多模态模型：Chinese CLIP，基于两亿中文图文多模态数据！

鹏城实验室学者提出了一种新的视频语言多模态预训练模型SOTA-VLP，融合了空间时序建模方法，捕获细粒度特征，多项任务取得SOTA！

基于Diffusion模型的DiffFace来了，交换效果超过之前的经典模型！代码和模型即将开源！

CLIP可以直接拿来做文本检测了！腾讯优图提出TCM结构，文本检测能力在多个数据集上均有较大提升！目前以被CVPR2023接收！

微软提出了新的模型蒸馏策略G2SD，利用掩码自动编码器结合特征蒸馏和KD蒸馏，学生模型的精度达到教师模型的98%！目前已开源！

DeepMind提出了新的半监督学习方法SEMPPL，结合当前的对比学习自监督学习方案，表征能力得到进一步提升！

多模态还能助力NLP任务！上交学者提出TILT方法，利用多模态检索图像增强文本表征，多项NLP下游任务达到SOTA！

CVPR 2023，EVA升级，智源开源更强的视觉预训练模型EVA-2，Vit-L Imagenet精度达到90+！

Meta AI提出新的视觉Transformer结构，相同精度内存减少15倍！代码和模型目前已开源！

字节提出新的多边形战士，通用基础模型X-FM，将视觉，文本和多模态的训练做到了一个阶段，在多项下游任务表现不错！

伊朗科技大学学者提出用于医学图像识别的骨干网络MedViT，融合了CNN和Transformer的结构，在多项医学图像任务取得不错效果！

文本引导的虚拟试衣来了，多模态在时尚领域的又一杀器！一键更换模特服装！目前代码模型已开源！

最强优化器来了！谷歌提出适用于多种任务的新型优化器Lion，在多项任务上以更快的训练速度取得更好的性能！目前已开源！

最强视觉backbone网络ConvNext v2来了！Meta AI融合了视觉掩码自监督框架，提出新的新的SOTA算法！目前代码和模型已开源！

PDF 完全免费在线工具箱，方便处理任意PDF文件！

RAG-大模型知识库落地新策略！RAG检索增强生成，大模型的记忆体！

华为诺亚实验室提出NLIP多模态模型：仅用2900万数据性能超过BLIP和CLIP等亿级数据训练的多模态模型！

AI 提示词工程来啦，彻底解决你的词穷困境！

CVPR2023 基于掩码的视觉和语言Transformer，能够同时完成以文生图和Image Captioning两种多模态生成任务，且效果非常不错！

苹果公司学者提出最快的ViT结构FastViT，实现了效率和精度的trade-off。比Efficient 快5倍，比ConvNext快2倍！

Transformer能否像MobileNets一样快？加州伯克利学者提出Efficient former V2，速度和精度超过之前轻量模型！

39页视觉问答（VQA）和视觉推理综述论文来了！涉及近30个数据集，50多种经典方法，VQA终于学会了！

阿里提出了一种无需解码头的轻量化语义分割网络，参数量减少30%的同时性能提升4个百分点！

谷歌学者提出了简单的DPN策略，在ViT 的Patch Embedding层前后各加一个LN层就能提升ViT性能！

字节联合爱丁堡大学提出新的视觉预训练方法MUG，取得新的SOTA！模型和代码均已开源，快来领取！

最全的30页Loss函数总结综述来了，包含30多种损失函数，涉及分类，回归，Ranking等！

亚马逊联合牛津提出了用于多模态理解的三元对比学习TCL，在CLIP的基础上提升了多模态模型的跨模态理解能力！

继EMO之后又火了！阿里提出Image-to-Video新框架AtomoVideo！

神马！只用60行Numpy代码手搓出GPT大模型！这老哥简直太牛啦

【多模态+大模型+知识图谱】2024完整版：这绝对是B站最全的教程，论文创新点终于解决了！——人工智能/深度学习/aigc/计算机视觉

全新文本编码器，提升flux作图上限，更长的提示词理解和更好的图像细节

【EMNLP2023】清华联合阿里提出了利用大型语言模型辅助多模态OOD检测的新方法！

中山大学学者提出新的视觉Transfomer结构DilateFormer，减少70%计算量的同时性能更优！目前已开源！

基于Transformer的医学图像分析综述来了，包含200多篇论文，涉及分类，分割，定位以及captioning等任务！

超实用的AI 论文审稿，大部分期刊编辑都在抢着用！