FIND：通用接口实现跨模态任务的高效对齐与交互

发布人

【加群】 一起来刷arxiv，请加vx: pwbot02(请备注：b站arxiv) 
【论文标题】 FIND：通用接口实现跨模态任务的高效对齐与交互
【论文简述】 本文提出了FIND（Foundation Models&#39; Embeddings Interfacing），一种通用接口，用于实现跨模态任务（如图像检索、分割等）中视觉与语言模型的高效对齐与交互。FIND具有通用性、原型化、可扩展性等优点，通过轻量级变换器接口，无需调整基础模型权重，即可在统一架构和权重下实现多种任务。FIND创造了一个交织的共享嵌入空间，使视觉和语言表示可互换和可扩展。此外，作者们提出了FIND-Bench，一个针对交织视觉和图像-文本理解任务的新基准，基于COCO数据集。实验结果表明，FIND在交织图像检索和分割任务上达到最先进性能，并在标准检索和分割任务上具有竞争力。
【论文链接】 https://arxiv.org/abs/2312.07532

打开封面下载高清视频观看高清视频视频下载器

FIND：通用接口实现跨模态任务的高效对齐与交互

多模态模型对齐与强化学习从人类反馈优化

大规模多模态模型扩展研究

通用视觉基础模型：多任务学习实现高效零样本迁移

语言模型对齐新方法：基于对比不似然训练的判断反馈

多模态基础模型研究综述

PixelLLM：通过像素对齐实现视觉语言模型的精确定位

大规模语言模型在多模态音乐理解与生成中的应用

多模态协同学习模型

多模态模型的规模化：预训练和指导调整

RLHF-V: 通过细粒度纠正性人工反馈实现值得信赖的多模态大型语言模型

【AI Drive】天津大学副教授张长青：多模态融合的基础问题及算法研究

LLaVA-Grounding：实现大型多模态模型的基于视觉的聊天

智能手机应用操作的多模态智能代理框架

FineControlNet：基于空间对齐文本控制注入的图像生成细粒度文本控制

基于CapsFusion的高质量多模态预训练数据生成

蜜蜜蜂：一种局部增强的多模态大型语言模型投影器

无需相机参数的3D高斯散射：COLMAP-Free 3DGS实现稳健的视角合成与姿态估计

VCoder：为多模态大型语言模型提供视觉编码器的多功能视觉编码器

“我要这样”：结合大型语言模型与约束编程实现交互式决策支持

ImageBind-LLM: 多种模态指令调优

弱到强泛化：用弱监督激发强大模型的潜力

多模态指令图像生成：Instruct-Imagen模型的创新与应用

FreeControl：实现任意文本到图像扩散模型的无训练空间控制

DiffMorpher：释放扩散模型潜能实现平滑图像变形

ICCV 2023: 迭代推理方法在分割任务中的应用

基于多模态工具的大型语言模型控制系统ControlLLM

基于上下文调整的检索增强生成方法

GridFormer 表结构识别方法

面向诚实的对齐：提升大型语言模型的知识边界意识

SPHINX: 一种多模态大语言模型的联合混合方法

神经场与触觉感知：实现机器人手部操作的视触觉感知

【AI Drive】ICLR 2021 - 兼听则明，信而有征：可信多模态分类

基于语言、任务和指标的人工智能模型的一致性分析

融合像素与潜在扩散模型的文本到视频生成方法

基于Transformer的推荐系统特征交互建模方法研究

【AI Drive】CVPR2021 - M^3P: 多语言与多模态在预训练中的结合

快速高效文本到图像生成模型

对比激活添加：精确操控大型语言模型行为的新方法

高斯涂抹文本生成三维模型

一种高效的后训练量化方法