mPLUG-DocOwl2：多页多模态文档理解大模型 - 视频下载 Video Downloader

京东 11.11 红包

mPLUG-DocOwl2：多页多模态文档理解大模型

发布人

arxiv：https://arxiv.org/abs/2409.03420
GitHub：https://github.com/X-PLUG/mPLUG-DocOwl

打开封面下载高清视频观看高清视频视频下载器

LLaVA-MoD：基于知识蒸馏的小多模态大模型

SlowFast-LLaVA：无需训练的视频理解多模态大模型

ChartMoE：使用MoE adapter的Chart理解多模态大模型

VILA-U：端到端的统一理解和生成任务的多模态大模型

OMG-LLaVA：拥有segmentation能力的视觉多模态大模型

transfusion：统一transformer和diffusion框架的多模态大模型

Qwen2-VL：支持任意精度图片以及视频输入的开源大模型系列

LongLLaVA:基于Jamba的多图理解多模态大模型

UnifiedMLLM：多任务多模态大模型

【共享LLM前沿】通俗易懂搞懂四大多模态大模型CLIP BLIP VIT MLLM及对话机器人办公助手！大模型预训练微调

1小时使用RAGFlow+Ollama构建本地知识库！采用OCR和深度文档理解结合的新一代RAG引擎，windows、docker

eagle：多个Vision Encoder的多模态大模型

mPLUG-Owl3 多图理解多模态大模型

LLaMA-omni：低延时的语言交互多模态大模型

Research Track 5：多模态大模型最新的一些论文

Research Track 3：多模态大模型最新的一些论文

MM-ICL：关于多模态In Context Learning的消融实验

CogVLM2：智谱AI新一代多模态大模型系列

Emu3：统一理解和生成的多模态大模型

大模型项目失败的十大原因（一）

Ferret-UI 2：拥有跨平台UI理解的多模态大模型

phi-3.5：微软大模型系列

Research Track 2: 多模态大模型最新的一些论文

Janus：基于分离视觉编码器的统一理解与生成的多模态大模型

使用RAGFlow+Ollama搭建超好用的中文知识库！基于OCR和文档解析的RAG，多模态大模型、人工智能

BLIP3: 抛弃Q-former的BLIP

【AI虚拟伙伴】对接本地Ollama VLM教程图像识别多模态大模型推荐

Points: 融合多个优化策略的多模态大模型

agent Q: 超强网页交互agent

mini-omni：实时可交互语音大模型

【自学大模型】9小时学懂大模型预训练微调及四大多模态大模型！讯飞大佬通俗易懂讲解如何构建对话机器人办公助手！RLHF、transformer、CLIP、ViT

mini-Gemini：支持高精度图片输入的多模态大模型

AVG-LLaVA：自适应尺度视觉特征选择的多模态大模型

大模型项目失败的十大原因（二）

GameNGen：使用diffusion model做的游戏引擎

Qwen2_math

Research Track 7：多模态大模型最新的一些论文

Allegro：开源的SOTA视频生成模型

【史上最全SD教程】秋叶StableDiffusion整合包 AI绘画零基础入门到精通商业实战课程 2024最新版 AIGC保姆级课程人工智能绘图画图商业变现

NVLM：融合LLaVA和Flamingo架构的多模态大模型系列