V
主页
Densely Captioned Images: 评估视觉语言模型的新基准
发布人
【加群】 一起来刷arxiv,请加vx: pwbot02(请备注:b站arxiv) 【论文标题】 Densely Captioned Images: 评估视觉语言模型的新基准 【论文简述】 本文介绍了 Densely Captioned Images (DCI) 数据集,该数据集包含 8012 张自然图像,每张图像都有人类注释的、与图像区域精确对齐的描述,平均每个描述超过 1000 个词。作者提出了一种新的任务,将每个描述与其对应的图像子区域进行匹配,以评估视觉语言模型对图像内容的理解。此外,作者还提供了一个对描述进行总结的版本 (sDCI),以便与当前的模型(如 CLIP)一起使用。实验结果表明,现有的模型在这一新基准上的性能与在标准基准上的性能并不一致。最后,作者使用 sDCI 对 CLIP 进行微调,取得了显著改进。该数据集的发布有望推动下一代视觉语言模型的发展。 【论文链接】 https://arxiv.org/abs/2312.08578
打开封面
下载高清视频
观看高清视频
视频下载器
Axolotl微调Qwen2-7b开源大模型!AutoGen+Marker自动生成数据集!AutoGen Studio+GPT4评估Qwen2文章能力
人工智能视觉语言模型对视觉错觉的感知
基于统一视觉语言模型的图像和视频混合学习
基于协同学习的可组合视觉语言模型
小模型大智慧:TinyGSM助力小规模语言模型在数学推理上超越大规模模型
[cvpr2024][点云数据集]LiDAR-Net:一个3D实采室内点云数据集
VCoder:为多模态大型语言模型提供视觉编码器的多功能视觉编码器
分布式大型语言模型的互联网低成本推理与微调
做了个yolo格式数据集半自动标注工具,只需要标注第一帧,自动跟踪标注
CRUXEval:代码推理、理解和执行评估的新基准
CLIP作为RNN:无需训练即可分割无数视觉概念
SyncTalk第04讲训练第二步增加嘴型部分精细化训练素材请使用512分辨率的高清头像FPS为25
大模型全栈-数据介绍
FedKSeed:实现低通信开销的十亿级语言模型联合全参数微调
五分钟教会你微调Llama3大模型!简单几步即可轻松打造自己的专属大模型!(附教程)无需本地配置即可轻松完成!小白也能学会!
HallusionBench: You See What You Think? Or You Think What You See? An Image-Cont
Aligning Text-to-Image Diffusion Models with Reward Backpropagation
大模型全栈总览
基于认知树的小型语言模型推理能力提升
PixelLLM:通过像素对齐实现视觉语言模型的精确定位
🦜⚒️ LangSmith Evaluations|4️⃣ 执行评估评测
【面壁学术沙龙】第4期:给大模型做“奥赛题”?GPT-4o通关率25.89%,Claude3-Opus仅做对7.65%
大型语言模型生成内容质量自评估提升选择性生成
文本驱动的视频生成模型的动态定制
大型语言模型潜在知识发现的挑战
Wonder3D: Single Image to 3D using Cross-Domain Diffusion
yolov10 <5分钟速通训练自己的数据集>
通用视觉基础模型:多任务学习实现高效零样本迁移
Text-to-Sticker: Style Tailoring Latent Diffusion Models for Human Expression
基于语言模型的知识探测和推理方法
用视觉语言模型自动生成奖励函数,训练多目标强化学习智能体
大规模语言模型在多模态音乐理解与生成中的应用
安全训练与语言模型的鲁棒性: 对Llama 2-Chat进行潜在微调的风险评估
大规模语言模型结合神经符号模型的生成型神经符号视觉推理
数字人SyncTalk数据集制作教程一键制作只需一个视频即可制作要求512分辨率
《生成式AI微调LLM速成课|Generative AI Fine Tuning LLM Models Crash Course》中英字幕
多模态指令图像生成:Instruct-Imagen模型的创新与应用
LLAMA PRO:基于Transformer块扩展的渐进式大型语言模型
基于自然语言模型的离线强化学习框架LaMo
基于多头后验的预训练模型评估方法