Densely Captioned Images: 评估视觉语言模型的新基准

发布人

【加群】 一起来刷arxiv，请加vx: pwbot02(请备注：b站arxiv) 
【论文标题】 Densely Captioned Images: 评估视觉语言模型的新基准
【论文简述】 本文介绍了 Densely Captioned Images (DCI) 数据集，该数据集包含 8012 张自然图像，每张图像都有人类注释的、与图像区域精确对齐的描述，平均每个描述超过 1000 个词。作者提出了一种新的任务，将每个描述与其对应的图像子区域进行匹配，以评估视觉语言模型对图像内容的理解。此外，作者还提供了一个对描述进行总结的版本 (sDCI)，以便与当前的模型（如 CLIP）一起使用。实验结果表明，现有的模型在这一新基准上的性能与在标准基准上的性能并不一致。最后，作者使用 sDCI 对 CLIP 进行微调，取得了显著改进。该数据集的发布有望推动下一代视觉语言模型的发展。
【论文链接】 https://arxiv.org/abs/2312.08578

打开封面下载高清视频观看高清视频视频下载器

Densely Captioned Images: 评估视觉语言模型的新基准

Axolotl微调Qwen2-7b开源大模型！AutoGen+Marker自动生成数据集！AutoGen Studio+GPT4评估Qwen2文章能力

人工智能视觉语言模型对视觉错觉的感知

基于统一视觉语言模型的图像和视频混合学习

基于协同学习的可组合视觉语言模型

小模型大智慧：TinyGSM助力小规模语言模型在数学推理上超越大规模模型

[cvpr2024][点云数据集]LiDAR-Net:一个3D实采室内点云数据集

VCoder：为多模态大型语言模型提供视觉编码器的多功能视觉编码器

分布式大型语言模型的互联网低成本推理与微调

做了个yolo格式数据集半自动标注工具，只需要标注第一帧，自动跟踪标注

CRUXEval：代码推理、理解和执行评估的新基准

CLIP作为RNN：无需训练即可分割无数视觉概念

SyncTalk第04讲训练第二步增加嘴型部分精细化训练素材请使用512分辨率的高清头像FPS为25

大模型全栈-数据介绍

FedKSeed：实现低通信开销的十亿级语言模型联合全参数微调

五分钟教会你微调Llama3大模型！简单几步即可轻松打造自己的专属大模型！（附教程）无需本地配置即可轻松完成！小白也能学会！

HallusionBench: You See What You Think? Or You Think What You See? An Image-Cont

Aligning Text-to-Image Diffusion Models with Reward Backpropagation

大模型全栈总览

基于认知树的小型语言模型推理能力提升

PixelLLM：通过像素对齐实现视觉语言模型的精确定位

🦜⚒️ LangSmith Evaluations｜4️⃣ 执行评估评测

【面壁学术沙龙】第4期：给大模型做“奥赛题”？GPT-4o通关率25.89%，Claude3-Opus仅做对7.65%

大型语言模型生成内容质量自评估提升选择性生成

文本驱动的视频生成模型的动态定制

大型语言模型潜在知识发现的挑战

Wonder3D: Single Image to 3D using Cross-Domain Diffusion

yolov10 <5分钟速通训练自己的数据集>

通用视觉基础模型：多任务学习实现高效零样本迁移

Text-to-Sticker: Style Tailoring Latent Diffusion Models for Human Expression

基于语言模型的知识探测和推理方法

用视觉语言模型自动生成奖励函数，训练多目标强化学习智能体

大规模语言模型在多模态音乐理解与生成中的应用

安全训练与语言模型的鲁棒性: 对Llama 2-Chat进行潜在微调的风险评估

大规模语言模型结合神经符号模型的生成型神经符号视觉推理

数字人SyncTalk数据集制作教程一键制作只需一个视频即可制作要求512分辨率

《生成式AI微调LLM速成课|Generative AI Fine Tuning LLM Models Crash Course》中英字幕

多模态指令图像生成：Instruct-Imagen模型的创新与应用

LLAMA PRO：基于Transformer块扩展的渐进式大型语言模型

基于自然语言模型的离线强化学习框架LaMo

基于多头后验的预训练模型评估方法