RLHF-V: 通过细粒度纠正性人工反馈实现值得信赖的多模态大型语言模型

发布人

【加群】 一起来刷arxiv，请加vx: pwbot02(请备注：b站arxiv) 
【论文标题】 RLHF-V: 通过细粒度纠正性人工反馈实现值得信赖的多模态大型语言模型
【论文简述】 本文提出了一种名为RLHF-V的框架，旨在通过细粒度纠正性人工反馈来提高多模态大型语言模型（MLLM）的可信度。现有的MLLM普遍存在严重的幻觉问题，生成与图像内容不相符的文本。为了解决这个问题，RLHF-V收集了人类对幻觉部分的细粒度纠正性反馈，并利用密集的直接偏好优化方法对这些反馈进行学习。实验结果表明，RLHF-V可以在五个基准测试中显著提高MLLM的可信度，同时具有较高的数据和计算效率。通过使用1.4k个标注样本，RLHF-V将基线MLLM的幻觉率降低了34.8%，优于使用10k个标注样本的LLaVA-RLHF。最终的模型在开源MLLM中实现了最先进的可信度性能，并在防止过度泛化引起的幻觉方面表现出比GPT-4V更好的鲁棒性。
【论文链接】 https://arxiv.org/abs/2312.00849

打开封面下载高清视频观看高清视频视频下载器

RLHF-V: 通过细粒度纠正性人工反馈实现值得信赖的多模态大型语言模型

多模态大型语言模型深度比较：Gemini与GPT-4V的全面评估与结合

Merlin：赋予多模态大型语言模型未来洞察力

大型语言模型在上下文学习中的可靠性提升：结合监督知识的方法

VCoder：为多模态大型语言模型提供视觉编码器的多功能视觉编码器

Kosmos-G: Generating Images in Context with Multimodal Large Language Models

多模态协同学习模型

大规模语言模型的数学求解能力的安全性评估

PromptBench：全面评估大型语言模型的统一框架

基于多模态工具的大型语言模型控制系统ControlLLM

多模态大型语言模型Gemini在常识推理中的表现评估

SPHINX: 一种多模态大语言模型的联合混合方法

大规模多模态模型扩展研究

面向大型语言模型的有约束文本生成方法

分布式大型语言模型的互联网低成本推理与微调

多模态模型对齐与强化学习从人类反馈优化

闪电注意力-2：大型语言模型处理无限序列长度的高效方法

Vary: 大型视觉语言模型视觉词汇扩展新方法

大型语言模型：从训练到推理的全面综述

大型语言模型作为优化器

多模态基础模型研究综述

Safe RLHF: Safe Reinforcement Learning from Human Feedback

FineControlNet：基于空间对齐文本控制注入的图像生成细粒度文本控制

大型语言模型效率研究综述

利用数据中心方法提升大型语言模型在金融领域的应用

LLM360：推动全透明开源大型语言模型研究

从人类反馈中学习：纳什学习在大型语言模型中的应用

探索大型语言模型在工业芯片设计中的应用

通用视觉基础模型：多任务学习实现高效零样本迁移

验证链减少大型语言模型幻觉问题研究

蜜蜜蜂：一种局部增强的多模态大型语言模型投影器

利用FP8低位数据格式高效地训练大型语言模型

PixelLLM：通过像素对齐实现视觉语言模型的精确定位

语言模型对齐新方法：基于对比不似然训练的判断反馈

TinyLlama：开源小型语言模型的新突破

基于潜在变量推断的训练链式思维提升语言模型推理能力

TrustLLM: Trustworthiness in Large Language Models

LLaVA-Interactive: 一种多模态人机交互研究原型

FedKSeed：实现低通信开销的十亿级语言模型联合全参数微调

Secrets of RLHF in Large Language Models Part II: Reward Modeling

【EMNLP 2023 最佳长论文奖】揭示大型语言模型上下文学习机制：标签词作为锚点的信息流视角