V
主页
京东 11.11 红包
mPLUG-DocOwl2:多页多模态文档理解大模型
发布人
arxiv:https://arxiv.org/abs/2409.03420 GitHub:https://github.com/X-PLUG/mPLUG-DocOwl
打开封面
下载高清视频
观看高清视频
视频下载器
LLaVA-MoD:基于知识蒸馏的小多模态大模型
SlowFast-LLaVA:无需训练的视频理解多模态大模型
ChartMoE:使用MoE adapter的Chart理解多模态大模型
VILA-U:端到端的统一理解和生成任务的多模态大模型
OMG-LLaVA:拥有segmentation能力的视觉多模态大模型
transfusion:统一transformer和diffusion框架的多模态大模型
Qwen2-VL:支持任意精度图片以及视频输入的开源大模型系列
LongLLaVA:基于Jamba的多图理解多模态大模型
UnifiedMLLM:多任务多模态大模型
【共享LLM前沿】通俗易懂搞懂四大多模态大模型CLIP BLIP VIT MLLM及对话机器人办公助手!大模型预训练微调
1小时使用RAGFlow+Ollama构建本地知识库!采用OCR和深度文档理解结合的新一代RAG引擎,windows、docker
eagle:多个Vision Encoder的多模态大模型
mPLUG-Owl3 多图理解多模态大模型
LLaMA-omni:低延时的语言交互多模态大模型
Research Track 5:多模态大模型最新的一些论文
Research Track 3:多模态大模型最新的一些论文
MM-ICL:关于多模态In Context Learning的消融实验
CogVLM2:智谱AI新一代多模态大模型系列
Emu3:统一理解和生成的多模态大模型
大模型项目失败的十大原因(一)
Ferret-UI 2:拥有跨平台UI理解的多模态大模型
phi-3.5:微软大模型系列
Research Track 2: 多模态大模型最新的一些论文
Janus:基于分离视觉编码器的统一理解与生成的多模态大模型
使用RAGFlow+Ollama搭建超好用的中文知识库!基于OCR和文档解析的RAG,多模态大模型、人工智能
BLIP3: 抛弃Q-former的BLIP
【AI虚拟伙伴】对接本地Ollama VLM教程 图像识别多模态大模型推荐
Points: 融合多个优化策略的多模态大模型
agent Q: 超强网页交互agent
mini-omni:实时可交互语音大模型
【自学大模型】9小时学懂大模型预训练微调及四大多模态大模型!讯飞大佬通俗易懂讲解如何构建对话机器人办公助手!RLHF、transformer、CLIP、ViT
mini-Gemini:支持高精度图片输入的多模态大模型
AVG-LLaVA:自适应尺度视觉特征选择的多模态大模型
大模型项目失败的十大原因(二)
GameNGen:使用diffusion model做的游戏引擎
Qwen2_math
Research Track 7:多模态大模型最新的一些论文
Allegro:开源的SOTA视频生成模型
【史上最全SD教程】秋叶StableDiffusion整合包 AI绘画零基础入门到精通商业实战课程 2024最新版 AIGC保姆级课程 人工智能绘图画图商业变现
NVLM:融合LLaVA和Flamingo架构的多模态大模型系列