V
主页
区域描述生成:轻量级增强交互式分割模型
发布人
【加群】 一起来刷arxiv,请加vx: pwbot02(请备注:b站arxiv) 【论文标题】 区域描述生成:轻量级增强交互式分割模型 【论文简述】 本文提出了一种方法,通过引入轻量级查询式特征混合器,使交互式分割模型(SAM)具备生成区域描述的能力。在SAM架构的基础上,添加了一个预训练的语言模型(冻结状态)和一个轻量级混合特征连接。尽管可训练参数数量较少,但区域特定特征能够与语言模型的嵌入空间对齐,以实现区域描述生成。为了解决区域描述数据稀缺的问题,作者提出了一种弱监督预训练方法,利用大量目标检测和分割数据集进行预训练。实验结果表明,该方法在VG数据集上实现了最先进的性能。这项研究为扩展区域描述数据和探索如何为SAM等分割模型增加区域语义提供了有益的启示。 【论文链接】 https://arxiv.org/abs/2312.00869
打开封面
下载高清视频
观看高清视频
视频下载器
基于上下文调整的检索增强生成方法
融合像素与潜在扩散模型的文本到视频生成方法
高斯涂抹文本生成三维模型
生成高质量的长视频:SEINE视频扩散模型
Paper Reading Group基于知识增强的语言表示模型
OpenIns3D: 3D开放词汇实例分割的新框架
基于扩散模型的可控4D引导视频生成
CLIP作为RNN:无需训练即可分割无数视觉概念
【AI Drive】ACL 2021:利用对比学习增强预训练语言模型的实体与实体间关系理解
基于文本到图像扩散模型的文本到视频生成架构研究
开源指令生成:用开源代码提升代码生成模型性能
ICCV 2023: 迭代推理方法在分割任务中的应用
基于扩散模型的360度全景图像生成任务
大规模语言模型在多模态音乐理解与生成中的应用
快速高效文本到图像生成模型
基于生成式强化学习的指令上下文增强模型:ICE-GRT
一种基于物理信息纠正的交互扩散模型
对话生成模型的探析与创新
蜜蜜蜂:一种局部增强的多模态大型语言模型投影器
动态3D高斯分布与合成扩散模型:实现文本到4D动画的生成
大规模语言模型结合神经符号模型的生成型神经符号视觉推理
稳定分数蒸馏:高质量三维生成新方法
HiFi Tuner:基于扩散模型的高保真度个性化图像生成
面向大型语言模型的有约束文本生成方法
基于ChatGPT的模板生成方法用于图像分类
动物伪装研究: 评估和生成有效的伪装图像和视频
用视觉语言模型自动生成奖励函数,训练多目标强化学习智能体
单张图像到3D的高效生成:基于分摊生成的3D高斯模型
文本驱动的视频生成模型的动态定制
“我要这样”:结合大型语言模型与约束编程实现交互式决策支持
TinySAM:高效分割模型的新突破
ECLIPSE:一种资源高效的文本到图像先验模型用于图像生成
DeepCache:无需训练加速扩散模型的创新方法
通过触觉生成视觉场景的研究
图像生成美学优化方法研究
【AI Drive】清华大学郑楚杰:知识增强对话生成中的差异感知知识选择
大规模多模态模型扩展研究
【AI Drive】 动态网络及其在场景分割中的应用
基于共享注意力的风格一致图像生成方法
对比激活添加:精确操控大型语言模型行为的新方法