LongLLaVA:基于Jamba的多图理解多模态大模型 - 视频下载 Video Downloader

京东 11.11 红包

LongLLaVA:基于Jamba的多图理解多模态大模型

发布人

arxiv：https://arxiv.org/abs/2409.02889
GitHub：https://github.com/FreedomIntelligence/LongLLaVA

打开封面下载高清视频观看高清视频视频下载器

SlowFast-LLaVA：无需训练的视频理解多模态大模型

Qwen2-VL：支持任意精度图片以及视频输入的开源大模型系列

mPLUG-Owl3 多图理解多模态大模型

transfusion：统一transformer和diffusion框架的多模态大模型

mPLUG-DocOwl2：多页多模态文档理解大模型

OMG-LLaVA：拥有segmentation能力的视觉多模态大模型

NVLM：融合LLaVA和Flamingo架构的多模态大模型系列

Research Track 7：多模态大模型最新的一些论文

ChartMoE：使用MoE adapter的Chart理解多模态大模型

UnifiedMLLM：多任务多模态大模型

ai短片，纯分享

Janus：基于分离视觉编码器的统一理解与生成的多模态大模型

Aria：基于MoE架构的原生多模态大模型

CogVLM2：智谱AI新一代多模态大模型系列

MM-ICL：关于多模态In Context Learning的消融实验

MarDini：一个基于masked auto-regression和DiT的非对称视频生成模型

mini-Gemini：支持高精度图片输入的多模态大模型

Research Track 5：多模态大模型最新的一些论文

Open-MAGVIT2基于Lookup-free Quantization的开源图片生成模型

DocLayLLM：高效，SOTA的文档理解多模态大模型

Cambrian-1：以视觉为中心，基于多个vision encoder的多模态大模型

OLMoE：基于MoE的全开源大模型

HERMES 3: 基于Llama3.1微调的大模型

三个文献综述 AI 神器

Research Track 6：多模态大模型最新的一些论文

VITA: 开源版GPT-4o实现

AVG-LLaVA：自适应尺度视觉特征选择的多模态大模型

llava-onevision：llava系列集大成者

Research Track 1：多模态大模型最新的一些论文

【LLM前沿】6小时精讲四大多模态大模型CLIP BLIP VIT MLLM及对话机器人办公助手！绝对的通俗易懂的大模型应用教程！

LLaVA-MoD：基于知识蒸馏的小多模态大模型

Fluid：使用连续token表示，随机顺序生成的自回归文生图模型

Qwen2_math

phi-3.5：微软大模型系列

Genie：编程助手

Allegro：开源的SOTA视频生成模型

分享免费，无需翻墙，无限次数使用的ChatGPT3.5和GPT4.0安装教程教程！

Research Track 4: 多模态大模型最新的一些论文

闭环了！浅谈哈里斯败选、女拳、和装机圈的关联！NV股价虽然翻了三倍，但雷蒙多一年努力依旧白费！

GameNGen：使用diffusion model做的游戏引擎