V
主页
FIND:通用接口实现跨模态任务的高效对齐与交互
发布人
【加群】 一起来刷arxiv,请加vx: pwbot02(请备注:b站arxiv) 【论文标题】 FIND:通用接口实现跨模态任务的高效对齐与交互 【论文简述】 本文提出了FIND(Foundation Models' Embeddings Interfacing),一种通用接口,用于实现跨模态任务(如图像检索、分割等)中视觉与语言模型的高效对齐与交互。FIND具有通用性、原型化、可扩展性等优点,通过轻量级变换器接口,无需调整基础模型权重,即可在统一架构和权重下实现多种任务。FIND创造了一个交织的共享嵌入空间,使视觉和语言表示可互换和可扩展。此外,作者们提出了FIND-Bench,一个针对交织视觉和图像-文本理解任务的新基准,基于COCO数据集。实验结果表明,FIND在交织图像检索和分割任务上达到最先进性能,并在标准检索和分割任务上具有竞争力。 【论文链接】 https://arxiv.org/abs/2312.07532
打开封面
下载高清视频
观看高清视频
视频下载器
多模态模型对齐与强化学习从人类反馈优化
大规模多模态模型扩展研究
通用视觉基础模型:多任务学习实现高效零样本迁移
语言模型对齐新方法:基于对比不似然训练的判断反馈
多模态基础模型研究综述
PixelLLM:通过像素对齐实现视觉语言模型的精确定位
大规模语言模型在多模态音乐理解与生成中的应用
多模态协同学习模型
多模态模型的规模化:预训练和指导调整
RLHF-V: 通过细粒度纠正性人工反馈实现值得信赖的多模态大型语言模型
【AI Drive】天津大学副教授张长青:多模态融合的基础问题及算法研究
LLaVA-Grounding:实现大型多模态模型的基于视觉的聊天
智能手机应用操作的多模态智能代理框架
FineControlNet:基于空间对齐文本控制注入的图像生成细粒度文本控制
基于CapsFusion的高质量多模态预训练数据生成
蜜蜜蜂:一种局部增强的多模态大型语言模型投影器
无需相机参数的3D高斯散射:COLMAP-Free 3DGS实现稳健的视角合成与姿态估计
VCoder:为多模态大型语言模型提供视觉编码器的多功能视觉编码器
“我要这样”:结合大型语言模型与约束编程实现交互式决策支持
ImageBind-LLM: 多种模态指令调优
弱到强泛化:用弱监督激发强大模型的潜力
多模态指令图像生成:Instruct-Imagen模型的创新与应用
FreeControl:实现任意文本到图像扩散模型的无训练空间控制
DiffMorpher:释放扩散模型潜能实现平滑图像变形
ICCV 2023: 迭代推理方法在分割任务中的应用
基于多模态工具的大型语言模型控制系统ControlLLM
基于上下文调整的检索增强生成方法
GridFormer 表结构识别方法
面向诚实的对齐:提升大型语言模型的知识边界意识
SPHINX: 一种多模态大语言模型的联合混合方法
神经场与触觉感知:实现机器人手部操作的视触觉感知
【AI Drive】ICLR 2021 - 兼听则明,信而有征:可信多模态分类
基于语言、任务和指标的人工智能模型的一致性分析
融合像素与潜在扩散模型的文本到视频生成方法
基于Transformer的推荐系统特征交互建模方法研究
【AI Drive】CVPR2021 - M^3P: 多语言与多模态在预训练中的结合
快速高效文本到图像生成模型
对比激活添加:精确操控大型语言模型行为的新方法
高斯涂抹文本生成三维模型
一种高效的后训练量化方法