V
主页
RLHF-V: 通过细粒度纠正性人工反馈实现值得信赖的多模态大型语言模型
发布人
【加群】 一起来刷arxiv,请加vx: pwbot02(请备注:b站arxiv) 【论文标题】 RLHF-V: 通过细粒度纠正性人工反馈实现值得信赖的多模态大型语言模型 【论文简述】 本文提出了一种名为RLHF-V的框架,旨在通过细粒度纠正性人工反馈来提高多模态大型语言模型(MLLM)的可信度。现有的MLLM普遍存在严重的幻觉问题,生成与图像内容不相符的文本。为了解决这个问题,RLHF-V收集了人类对幻觉部分的细粒度纠正性反馈,并利用密集的直接偏好优化方法对这些反馈进行学习。实验结果表明,RLHF-V可以在五个基准测试中显著提高MLLM的可信度,同时具有较高的数据和计算效率。通过使用1.4k个标注样本,RLHF-V将基线MLLM的幻觉率降低了34.8%,优于使用10k个标注样本的LLaVA-RLHF。最终的模型在开源MLLM中实现了最先进的可信度性能,并在防止过度泛化引起的幻觉方面表现出比GPT-4V更好的鲁棒性。 【论文链接】 https://arxiv.org/abs/2312.00849
打开封面
下载高清视频
观看高清视频
视频下载器
多模态大型语言模型深度比较:Gemini与GPT-4V的全面评估与结合
Merlin:赋予多模态大型语言模型未来洞察力
大型语言模型在上下文学习中的可靠性提升:结合监督知识的方法
VCoder:为多模态大型语言模型提供视觉编码器的多功能视觉编码器
Kosmos-G: Generating Images in Context with Multimodal Large Language Models
多模态协同学习模型
大规模语言模型的数学求解能力的安全性评估
PromptBench:全面评估大型语言模型的统一框架
基于多模态工具的大型语言模型控制系统ControlLLM
多模态大型语言模型Gemini在常识推理中的表现评估
SPHINX: 一种多模态大语言模型的联合混合方法
大规模多模态模型扩展研究
面向大型语言模型的有约束文本生成方法
分布式大型语言模型的互联网低成本推理与微调
多模态模型对齐与强化学习从人类反馈优化
闪电注意力-2:大型语言模型处理无限序列长度的高效方法
Vary: 大型视觉语言模型视觉词汇扩展新方法
大型语言模型:从训练到推理的全面综述
大型语言模型作为优化器
多模态基础模型研究综述
Safe RLHF: Safe Reinforcement Learning from Human Feedback
FineControlNet:基于空间对齐文本控制注入的图像生成细粒度文本控制
大型语言模型效率研究综述
利用数据中心方法提升大型语言模型在金融领域的应用
LLM360:推动全透明开源大型语言模型研究
从人类反馈中学习:纳什学习在大型语言模型中的应用
探索大型语言模型在工业芯片设计中的应用
通用视觉基础模型:多任务学习实现高效零样本迁移
验证链减少大型语言模型幻觉问题研究
蜜蜜蜂:一种局部增强的多模态大型语言模型投影器
利用FP8低位数据格式高效地训练大型语言模型
PixelLLM:通过像素对齐实现视觉语言模型的精确定位
语言模型对齐新方法:基于对比不似然训练的判断反馈
TinyLlama:开源小型语言模型的新突破
基于潜在变量推断的训练链式思维提升语言模型推理能力
TrustLLM: Trustworthiness in Large Language Models
LLaVA-Interactive: 一种多模态人机交互研究原型
FedKSeed:实现低通信开销的十亿级语言模型联合全参数微调
Secrets of RLHF in Large Language Models Part II: Reward Modeling
【EMNLP 2023 最佳长论文奖】揭示大型语言模型上下文学习机制:标签词作为锚点的信息流视角