V
主页
京东 11.11 红包
LongLLaVA:基于Jamba的多图理解多模态大模型
发布人
arxiv:https://arxiv.org/abs/2409.02889 GitHub:https://github.com/FreedomIntelligence/LongLLaVA
打开封面
下载高清视频
观看高清视频
视频下载器
SlowFast-LLaVA:无需训练的视频理解多模态大模型
Qwen2-VL:支持任意精度图片以及视频输入的开源大模型系列
mPLUG-Owl3 多图理解多模态大模型
transfusion:统一transformer和diffusion框架的多模态大模型
mPLUG-DocOwl2:多页多模态文档理解大模型
OMG-LLaVA:拥有segmentation能力的视觉多模态大模型
NVLM:融合LLaVA和Flamingo架构的多模态大模型系列
Research Track 7:多模态大模型最新的一些论文
ChartMoE:使用MoE adapter的Chart理解多模态大模型
UnifiedMLLM:多任务多模态大模型
ai短片,纯分享
Janus:基于分离视觉编码器的统一理解与生成的多模态大模型
Aria:基于MoE架构的原生多模态大模型
CogVLM2:智谱AI新一代多模态大模型系列
MM-ICL:关于多模态In Context Learning的消融实验
MarDini:一个基于masked auto-regression和DiT的非对称视频生成模型
mini-Gemini:支持高精度图片输入的多模态大模型
Research Track 5:多模态大模型最新的一些论文
Open-MAGVIT2基于Lookup-free Quantization的开源图片生成模型
DocLayLLM:高效,SOTA的文档理解多模态大模型
Cambrian-1:以视觉为中心,基于多个vision encoder的多模态大模型
OLMoE:基于MoE的全开源大模型
HERMES 3: 基于Llama3.1微调的大模型
三个文献综述 AI 神器
Research Track 6:多模态大模型最新的一些论文
VITA: 开源版GPT-4o实现
AVG-LLaVA:自适应尺度视觉特征选择的多模态大模型
llava-onevision:llava系列集大成者
Research Track 1:多模态大模型最新的一些论文
【LLM前沿】6小时精讲四大多模态大模型CLIP BLIP VIT MLLM及对话机器人办公助手!绝对的通俗易懂的大模型应用教程!
LLaVA-MoD:基于知识蒸馏的小多模态大模型
Fluid:使用连续token表示,随机顺序生成的自回归文生图模型
Qwen2_math
phi-3.5:微软大模型系列
Genie:编程助手
Allegro:开源的SOTA视频生成模型
分享免费,无需翻墙,无限次数使用的ChatGPT3.5和GPT4.0安装教程教程!
Research Track 4: 多模态大模型最新的一些论文
闭环了!浅谈哈里斯败选、女拳、和装机圈的关联!NV股价虽然翻了三倍,但雷蒙多一年努力依旧白费!
GameNGen:使用diffusion model做的游戏引擎