V
主页
CVPR'2023【已开源】 | 利用自适应mask的CLIP进行开放词汇下的语义分割
发布人
Title: Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP Paper:https://arxiv.org/pdf/2210.04150.pdf Code:https://github.com/facebookresearch/ov-seg 近期的两阶段方法首先生成无类别的掩膜 proposals,然后利用预训练的视觉语言模型(如CLIP)对掩膜区域进行分类。作者发现这种方法的性能瓶颈是预训练的CLIP模型,因为它在掩膜图像上表现不佳。为了解决这个问题,作者提出在一组掩膜图像区域及其相应的文本描述上对CLIP进行微调。他们使用CLIP将掩膜图像区域与图像标题中的名词匹配,从而收集训练数据。相对于具有固定类别的更精确和手动注释的分割标签(例如COCO-Stuff),作者发现噪声更大但多样化的数据集可以更好地保留CLIP的泛化能力。作者还提出了一种被称为“掩膜提示微调”的方法,利用掩膜图像中的“空白”区域。实验证明,掩膜提示微调可以在不修改CLIP权重的情况下带来显著的改进,并且它可以进一步提高完全微调模型的性能。特别是,在COCO训练和ADE20K150评估的情况下,作者的最佳模型实现了29.6%的mIoU,比之前的最新技术提高了8.5%。首次,开放词汇的通用模型与2017年专用模型的性能匹配,而无需特定于数据集的适应性。
打开封面
下载高清视频
观看高清视频
视频下载器
CVPR 2023【已开源】| 实例分割,全景分割,目标检测,统统收下!Mask DINO大揭秘
CVPR 2023【已开源】| OneFormer: 分割大统一框架,称霸三种分割任务!
CVPR 2023 【已开源】| 最强半监督实例分割腾空出世,精度媲美全监督!
CVPR 2023 【已开源】| 7x7的力量,大核3D卷积的崛起之路!
CVPR 2023【已开源】| 多模态语义分割新SOTA,适应任意模态,无惧困难场景!
CVPR 2023 【即将开源】| CGFormer:神探CG Transformer,寻找图象中的隐藏蛋糕!
CVPR 2023【已开源】 | 标注10张顶400张?高精度超弱监督医学图像分割框架
CVPR 2023【已开源】| 苏黎世联邦理工学院&Meta联合发布,OrienterNet:在2D公共地图上进行视觉定位
CVPR 2023【已开源】| Zero-Shot Noise2Noise:嗨,模糊,再见!小网络零样本去噪实践!
CVPR 2023【已开源】 | 从几何匹配一致的角度重新思考光流
CVPR 2023 | 华盛顿大学&谷歌联合发布,TryOnDiffusion:AI换衣秀:无需真人试衣,一键实现你的时尚梦想!
CVPR 2023【已开源】| BiFormer: 新颖的动态稀疏注意力,分类检测分割样样在行!
CVPR 2023 | 即插即用通用框架,实现检测、分割等密集预测任务无痛涨点!
CVPR 2023 【即将开源】| Face Book领先发布,RoDynRF:最强鲁棒的动态NeRF!
CVPR'2023 | 超低分辨率人脸识别
CVPR 2023 【已开源】| Consistency Is All You Need:走向现实的长尾半监督学习
CVPR 2023 Highlight【即将开源】| 清华大学领先发布!BEVFormer v2: 重回nuScenes榜首!
ICCV 2023 | 无监督新SOTA,CLIP的进阶之旅,无监督多标签图像分类!
CVPR 2023 Highlight 【已开源】| ETH Zurich与谷歌联合发布,应对稀疏视图和位姿噪声的神经辐射场
CVPR 2023【已开源】| 苹果&俄勒冈州立大学发布,AutoFocusFormer:自动对焦的变形金刚,专治各种难缠小目标!
CVPR'2023【已开源】 | SPIn-NERF: 神经辐射场的多视图分割和感知修复
CVPR 2023【已开源】| 纽约大学&英伟达领衔发布,VoxFormer: 让AI看见隐藏的世界!
CVPR 2023【已开源】| Masked Video Distillation:视觉炼金术:揭秘蒙版视频蒸馏的秘诀!
【X-AnyLabeling工具使用教程合辑】加载自定义模型
CVPR 2023【已开源】| Bicubic++:如何让你的超分辨网络变得更'瘦',更'快',更'强'!
CVPR 2023 | 苏黎世联邦理工&电子科大出品:利用多变量高斯优化单张图像的深度估计
CVPR 2023 Highlight【已开源】| Stitchable Neural Networks:可拼接神经网络,支持丰富的部署场景!
【从0到1学人工智能】吹爆!【整整500集】2024年B站最好最全的人工智能基础课程,清华大佬带你恶补AI专业知识!—人工智能基础速成 | 机器学习教程 | 深
CVPR 2023【已开源】| 上海大学&百度重量发布,抑制歧义的半监督学习方法,单阶段检测算法提点显著!
CVPR 2023 | 南加州大学:直接从较准的多视图重建语义对应的3D头部
【100集全】清华团队出品的大模型基础教程来了!120个小时彻底讲透大模型(LLM)真的通俗易懂!建议收藏!(人工智能、深度学习、机器学习、神经网络、图像处理)
【全122集】冒死上传!CNN、RNN、GAN、GNN、DQN、Transformer、LSTM等八大深度学习神经网络一口气全部学完!
【X-AnyLabeling工具使用教程合辑】标签导出设置
ICCV 2023【已开源】| ACFormer,创新点拆解,给大伙提供一些论文创作的思路!
CVPR 2023 【已开源】| POTTER:用于高效人体网格恢复的池化注意力转换器
ICCV 2023 | 轻量级即插即用注意力再升级,单行代码的魔力:优化注意力地图的简单之道!
【X-AnyLabeling工具使用教程合辑】玩转 GroundingDINO
最强目标检测 YOLO NAS | 手把手教你如何训练自己的数据集
CVPR 2023 | 谷歌最新发布:一个单词也能编辑图片,魔法文本重量来袭!
CVPR24 最佳学生论文:实现3DGS新突破,任意尺度无锯齿渲染!三名华人学者参与!