CVPR'2023【已开源】 | 利用自适应mask的CLIP进行开放词汇下的语义分割

发布人

Title： Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP

Paper：https://arxiv.org/pdf/2210.04150.pdf

Code：https://github.com/facebookresearch/ov-seg

近期的两阶段方法首先生成无类别的掩膜 proposals，然后利用预训练的视觉语言模型（如CLIP）对掩膜区域进行分类。作者发现这种方法的性能瓶颈是预训练的CLIP模型，因为它在掩膜图像上表现不佳。为了解决这个问题，作者提出在一组掩膜图像区域及其相应的文本描述上对CLIP进行微调。他们使用CLIP将掩膜图像区域与图像标题中的名词匹配，从而收集训练数据。相对于具有固定类别的更精确和手动注释的分割标签（例如COCO-Stuff），作者发现噪声更大但多样化的数据集可以更好地保留CLIP的泛化能力。作者还提出了一种被称为“掩膜提示微调”的方法，利用掩膜图像中的“空白”区域。实验证明，掩膜提示微调可以在不修改CLIP权重的情况下带来显著的改进，并且它可以进一步提高完全微调模型的性能。特别是，在COCO训练和ADE20K150评估的情况下，作者的最佳模型实现了29.6％的mIoU，比之前的最新技术提高了8.5％。首次，开放词汇的通用模型与2017年专用模型的性能匹配，而无需特定于数据集的适应性。

打开封面下载高清视频观看高清视频视频下载器

CVPR'2023【已开源】 | 利用自适应mask的CLIP进行开放词汇下的语义分割

CVPR 2023【已开源】| 实例分割，全景分割，目标检测，统统收下！Mask DINO大揭秘

CVPR 2023【已开源】| OneFormer: 分割大统一框架，称霸三种分割任务！

CVPR 2023 【已开源】| 最强半监督实例分割腾空出世，精度媲美全监督！

CVPR 2023 【已开源】| 7x7的力量，大核3D卷积的崛起之路！

CVPR 2023【已开源】| 多模态语义分割新SOTA，适应任意模态，无惧困难场景！

CVPR 2023 【即将开源】| CGFormer：神探CG Transformer，寻找图象中的隐藏蛋糕！

CVPR 2023【已开源】 | 标注10张顶400张？高精度超弱监督医学图像分割框架

CVPR 2023【已开源】| 苏黎世联邦理工学院&Meta联合发布，OrienterNet：在2D公共地图上进行视觉定位

CVPR 2023【已开源】| Zero-Shot Noise2Noise：嗨，模糊，再见！小网络零样本去噪实践！

CVPR 2023【已开源】 | 从几何匹配一致的角度重新思考光流

CVPR 2023 | 华盛顿大学&谷歌联合发布，TryOnDiffusion：AI换衣秀：无需真人试衣，一键实现你的时尚梦想！

CVPR 2023【已开源】| BiFormer: 新颖的动态稀疏注意力，分类检测分割样样在行！

CVPR 2023 | 即插即用通用框架，实现检测、分割等密集预测任务无痛涨点！

CVPR 2023 【即将开源】| Face Book领先发布，RoDynRF：最强鲁棒的动态NeRF！

CVPR'2023 | 超低分辨率人脸识别

CVPR 2023 【已开源】| Consistency Is All You Need：走向现实的长尾半监督学习

CVPR 2023 Highlight【即将开源】| 清华大学领先发布！BEVFormer v2: 重回nuScenes榜首！

ICCV 2023 | 无监督新SOTA，CLIP的进阶之旅，无监督多标签图像分类！

CVPR 2023 Highlight 【已开源】| ETH Zurich与谷歌联合发布，应对稀疏视图和位姿噪声的神经辐射场

CVPR 2023【已开源】| 苹果&俄勒冈州立大学发布，AutoFocusFormer：自动对焦的变形金刚，专治各种难缠小目标！

CVPR'2023【已开源】 | SPIn-NERF: 神经辐射场的多视图分割和感知修复

CVPR 2023【已开源】| 纽约大学&英伟达领衔发布，VoxFormer: 让AI看见隐藏的世界！

CVPR 2023【已开源】| Masked Video Distillation：视觉炼金术：揭秘蒙版视频蒸馏的秘诀！

【X-AnyLabeling工具使用教程合辑】加载自定义模型

CVPR 2023【已开源】| Bicubic++：如何让你的超分辨网络变得更'瘦'，更'快'，更'强'！

CVPR 2023 | 苏黎世联邦理工&电子科大出品：利用多变量高斯优化单张图像的深度估计

CVPR 2023 Highlight【已开源】| Stitchable Neural Networks：可拼接神经网络，支持丰富的部署场景！

【从0到1学人工智能】吹爆！【整整500集】2024年B站最好最全的人工智能基础课程，清华大佬带你恶补AI专业知识！—人工智能基础速成 | 机器学习教程 | 深

CVPR 2023【已开源】| 上海大学&百度重量发布，抑制歧义的半监督学习方法，单阶段检测算法提点显著！

CVPR 2023 | 南加州大学：直接从较准的多视图重建语义对应的3D头部

【100集全】清华团队出品的大模型基础教程来了！120个小时彻底讲透大模型（LLM）真的通俗易懂！建议收藏！（人工智能、深度学习、机器学习、神经网络、图像处理）

【全122集】冒死上传！CNN、RNN、GAN、GNN、DQN、Transformer、LSTM等八大深度学习神经网络一口气全部学完！

【X-AnyLabeling工具使用教程合辑】标签导出设置

ICCV 2023【已开源】| ACFormer，创新点拆解，给大伙提供一些论文创作的思路！

CVPR 2023 【已开源】| POTTER：用于高效人体网格恢复的池化注意力转换器

ICCV 2023 | 轻量级即插即用注意力再升级，单行代码的魔力：优化注意力地图的简单之道！

【X-AnyLabeling工具使用教程合辑】玩转 GroundingDINO

最强目标检测 YOLO NAS | 手把手教你如何训练自己的数据集

CVPR 2023 | 谷歌最新发布：一个单词也能编辑图片，魔法文本重量来袭！

CVPR24 最佳学生论文：实现3DGS新突破，任意尺度无锯齿渲染！三名华人学者参与！