区域描述生成：轻量级增强交互式分割模型

发布人

【加群】 一起来刷arxiv，请加vx: pwbot02(请备注：b站arxiv) 
【论文标题】 区域描述生成：轻量级增强交互式分割模型
【论文简述】 本文提出了一种方法，通过引入轻量级查询式特征混合器，使交互式分割模型（SAM）具备生成区域描述的能力。在SAM架构的基础上，添加了一个预训练的语言模型（冻结状态）和一个轻量级混合特征连接。尽管可训练参数数量较少，但区域特定特征能够与语言模型的嵌入空间对齐，以实现区域描述生成。为了解决区域描述数据稀缺的问题，作者提出了一种弱监督预训练方法，利用大量目标检测和分割数据集进行预训练。实验结果表明，该方法在VG数据集上实现了最先进的性能。这项研究为扩展区域描述数据和探索如何为SAM等分割模型增加区域语义提供了有益的启示。
【论文链接】 https://arxiv.org/abs/2312.00869

打开封面下载高清视频观看高清视频视频下载器

区域描述生成：轻量级增强交互式分割模型

基于上下文调整的检索增强生成方法

融合像素与潜在扩散模型的文本到视频生成方法

高斯涂抹文本生成三维模型

生成高质量的长视频：SEINE视频扩散模型

Paper Reading Group基于知识增强的语言表示模型

OpenIns3D: 3D开放词汇实例分割的新框架

基于扩散模型的可控4D引导视频生成

CLIP作为RNN：无需训练即可分割无数视觉概念

【AI Drive】ACL 2021：利用对比学习增强预训练语言模型的实体与实体间关系理解

基于文本到图像扩散模型的文本到视频生成架构研究

开源指令生成：用开源代码提升代码生成模型性能

ICCV 2023: 迭代推理方法在分割任务中的应用

基于扩散模型的360度全景图像生成任务

大规模语言模型在多模态音乐理解与生成中的应用

快速高效文本到图像生成模型

基于生成式强化学习的指令上下文增强模型：ICE-GRT

一种基于物理信息纠正的交互扩散模型

对话生成模型的探析与创新

蜜蜜蜂：一种局部增强的多模态大型语言模型投影器

动态3D高斯分布与合成扩散模型：实现文本到4D动画的生成

大规模语言模型结合神经符号模型的生成型神经符号视觉推理

稳定分数蒸馏：高质量三维生成新方法

HiFi Tuner：基于扩散模型的高保真度个性化图像生成

面向大型语言模型的有约束文本生成方法

基于ChatGPT的模板生成方法用于图像分类

动物伪装研究: 评估和生成有效的伪装图像和视频

用视觉语言模型自动生成奖励函数，训练多目标强化学习智能体

单张图像到3D的高效生成：基于分摊生成的3D高斯模型

文本驱动的视频生成模型的动态定制

“我要这样”：结合大型语言模型与约束编程实现交互式决策支持

TinySAM：高效分割模型的新突破

ECLIPSE：一种资源高效的文本到图像先验模型用于图像生成

DeepCache：无需训练加速扩散模型的创新方法

通过触觉生成视觉场景的研究

图像生成美学优化方法研究

【AI Drive】清华大学郑楚杰：知识增强对话生成中的差异感知知识选择

大规模多模态模型扩展研究

【AI Drive】 动态网络及其在场景分割中的应用

基于共享注意力的风格一致图像生成方法

对比激活添加：精确操控大型语言模型行为的新方法

【AI Drive】动态网络及其在场景分割中的应用