LLaVA-MoD：基于知识蒸馏的小多模态大模型 - 视频下载 Video Downloader

京东 11.11 红包

LLaVA-MoD：基于知识蒸馏的小多模态大模型

发布人

arxiv：https://arxiv.org/abs/2408.15881
GitHub：https://github.com/shufangxun/LLaVA-MoD

打开封面下载高清视频观看高清视频视频下载器

LLaMA-omni：低延时的语言交互多模态大模型

SlowFast-LLaVA：无需训练的视频理解多模态大模型

Emu3：统一理解和生成的多模态大模型

eagle：多个Vision Encoder的多模态大模型

NVLM：融合LLaVA和Flamingo架构的多模态大模型系列

mini-Gemini：支持高精度图片输入的多模态大模型

Aria：基于MoE架构的原生多模态大模型

Research Track：多模态大模型最新的一些论文

OMG-LLaVA：拥有segmentation能力的视觉多模态大模型

BLIP3: 抛弃Q-former的BLIP

mini-omni：实时可交互语音大模型

CogVLM2：智谱AI新一代多模态大模型系列

OLMoE：基于MoE的全开源大模型

mPLUG-DocOwl2：多页多模态文档理解大模型

Research Track 4: 多模态大模型最新的一些论文

Allegro：开源的SOTA视频生成模型

DocLayLLM：高效，SOTA的文档理解多模态大模型

phi-3.5：微软大模型系列

mPLUG-Owl3 多图理解多模态大模型

如何构建知识图谱？博士通俗讲解多模态大模型+知识图谱！基于多模态信息抽取的菜品知识图谱构建｜知识抽取｜Neo4j｜医药问答系统

LLaMA3.2：LLaMA3.2大模型系列

Research Track 1：多模态大模型最新的一些论文

AVG-LLaVA：自适应尺度视觉特征选择的多模态大模型

Genie：编程助手

Research Track 6：多模态大模型最新的一些论文

Janus：基于分离视觉编码器的统一理解与生成的多模态大模型

1小时使用RAGFlow+Ollama构建本地知识库！采用OCR和深度文档理解结合的新一代RAG引擎，windows、docker

Research Track 3：多模态大模型最新的一些论文

Research Track 5：多模态大模型最新的一些论文

VITA: 开源版GPT-4o实现

Fluid：使用连续token表示，随机顺序生成的自回归文生图模型

ChartMoE：使用MoE adapter的Chart理解多模态大模型

LongLLaVA:基于Jamba的多图理解多模态大模型

SHOW-o：统一理解和生成任务的transformer

HERMES 3: 基于Llama3.1微调的大模型

上海交大张伟楠机器学习课程第1讲：机器学习简介IV

Open-MAGVIT2基于Lookup-free Quantization的开源图片生成模型

MM1.5：Apple多模态大模型系列

Points: 融合多个优化策略的多模态大模型

11款神经网络科研绘图可视化工具，高效绘图太省事了！原来神经网络图这么简单就能画出来!