V
主页
里斯本大学学者提出检索增强的Image Captioning 方法,可以在预训练图文编码器的基础上进一步提升Caption性能!
发布人
-
打开封面
下载高清视频
观看高清视频
视频下载器
中科大提出All-in-One多模态预训练方法,利用统一的多模态互信息提升多模态性能,下游检测分割性能超过BEIT V3!
上交学者提出了一种利用Diffusion模型生合成语义分割数据集,并基于此训练了一个开放词汇分割的模型,效果惊艳!
Kaiming He团队在多模态领域提出的FLIP,结合MAE Masking Image 策略与CLIP,保证精度的同时 大幅提升训练效率!
Diffusion Model 可以用来进行图像数据增强了!卡内基梅隆大学学者提出DA-Fusion方法,提升了数据增强产生多样性高级语义样本的能力!
微软多模态团队提出了新的语言增强多模态预训练大模型,可以类似BLIP2进行多模态chat,效果很惊艳!
阿里发布最强中文图文多模态模型:Chinese CLIP,基于两亿中文图文多模态数据!
鹏城实验室学者提出了一种新的视频语言多模态预训练模型SOTA-VLP,融合了空间时序建模方法,捕获细粒度特征,多项任务取得SOTA!
基于Diffusion模型的DiffFace来了,交换效果超过之前的经典模型!代码和模型即将开源!
CLIP可以直接拿来做文本检测了!腾讯优图提出TCM结构,文本检测能力在多个数据集上均有较大提升!目前以被CVPR2023接收!
微软提出了新的模型蒸馏策略G2SD,利用掩码自动编码器结合特征蒸馏和KD蒸馏,学生模型的精度达到教师模型的98%!目前已开源!
DeepMind提出了新的半监督学习方法SEMPPL,结合当前的对比学习自监督学习方案,表征能力得到进一步提升!
多模态还能助力NLP任务!上交学者提出TILT方法,利用多模态检索图像增强文本表征,多项NLP下游任务达到SOTA!
CVPR 2023,EVA升级,智源开源更强的视觉预训练模型EVA-2,Vit-L Imagenet精度达到90+!
Meta AI提出新的视觉Transformer结构,相同精度内存减少15倍!代码和模型目前已开源!
字节提出新的多边形战士,通用基础模型X-FM,将视觉,文本和多模态的训练做到了一个阶段,在多项下游任务表现不错!
伊朗科技大学学者提出用于医学图像识别的骨干网络MedViT,融合了CNN和Transformer的结构,在多项医学图像任务取得不错效果!
文本引导的虚拟试衣来了,多模态在时尚领域的又一杀器!一键更换模特服装!目前代码模型已开源!
最强优化器来了!谷歌提出适用于多种任务的新型优化器Lion,在多项任务上以更快的训练速度取得更好的性能!目前已开源!
最强视觉backbone网络ConvNext v2来了!Meta AI融合了视觉掩码自监督框架,提出新的新的SOTA算法!目前代码和模型已开源!
PDF 完全免费在线工具箱,方便处理任意PDF文件!
RAG-大模型知识库落地新策略 !RAG检索增强生成,大模型的记忆体!
华为诺亚实验室提出NLIP多模态模型:仅用2900万数据性能超过BLIP和CLIP等亿级数据训练的多模态模型!
AI 提示词工程来啦,彻底解决你的词穷困境!
CVPR2023 基于掩码的视觉和语言Transformer,能够同时完成以文生图和Image Captioning两种多模态生成任务,且效果非常不错!
苹果公司学者提出最快的ViT结构FastViT,实现了效率和精度的trade-off。比Efficient 快5倍,比ConvNext快2倍!
Transformer能否像MobileNets一样快?加州伯克利学者提出Efficient former V2,速度和精度超过之前轻量模型!
39页视觉问答(VQA)和视觉推理综述论文来了!涉及近30个数据集,50多种经典方法,VQA终于学会了!
阿里提出了一种无需解码头的轻量化语义分割网络,参数量减少30%的同时性能提升4个百分点!
谷歌学者提出了简单的DPN策略,在ViT 的Patch Embedding层前后各加一个LN层就能提升ViT性能!
字节联合爱丁堡大学提出新的视觉预训练方法MUG,取得新的SOTA!模型和代码均已开源,快来领取!
最全的30页Loss函数总结综述来了,包含30多种损失函数,涉及分类,回归,Ranking等!
亚马逊联合牛津提出了用于多模态理解的三元对比学习TCL,在CLIP的基础上提升了多模态模型的跨模态理解能力!
继EMO之后又火了!阿里提出Image-to-Video新框架AtomoVideo!
神马!只用60行Numpy代码手搓出GPT大模型!这老哥简直太牛啦
【多模态+大模型+知识图谱】2024完整版:这绝对是B站最全的教程,论文创新点终于解决了!——人工智能/深度学习/aigc/计算机视觉
全新文本编码器,提升flux作图上限,更长的提示词理解和更好的图像细节
【EMNLP2023】清华联合阿里提出了利用大型语言模型辅助多模态OOD检测的新方法!
中山大学学者提出新的视觉Transfomer结构DilateFormer,减少70%计算量的同时性能更优!目前已开源!
基于Transformer的医学图像分析综述来了,包含200多篇论文,涉及分类,分割,定位以及captioning等任务!
超实用的AI 论文审稿,大部分期刊编辑都在抢着用!