V
主页
京东 11.11 红包
Points: 融合多个优化策略的多模态大模型
发布人
arxiv:https://www.arxiv.org/pdf/2409.04828
打开封面
下载高清视频
观看高清视频
视频下载器
transfusion:统一transformer和diffusion框架的多模态大模型
LLaMA-omni:低延时的语言交互多模态大模型
Cambrian-1:以视觉为中心,基于多个vision encoder的多模态大模型
Qwen2-VL:支持任意精度图片以及视频输入的开源大模型系列
NVLM:融合LLaVA和Flamingo架构的多模态大模型系列
【LLM前沿】6小时精讲四大多模态大模型CLIP BLIP VIT MLLM及对话机器人办公助手!绝对的通俗易懂的大模型应用教程!
VILA-U:端到端的统一理解和生成任务的多模态大模型
OMG-LLaVA:拥有segmentation能力的视觉多模态大模型
哥哥全自动驾驶模式
SlowFast-LLaVA:无需训练的视频理解多模态大模型
eagle:多个Vision Encoder的多模态大模型
AVG-LLaVA:自适应尺度视觉特征选择的多模态大模型
【墙裂推荐】25分钟搞定qwen大模型本地部署+微调法律大模型(只需5G内存)
谁懂啊!ai一键产出高质量小说秒过签约一天收益四五张!
MM-ICL:关于多模态In Context Learning的消融实验
MM1.5:Apple多模态大模型系列
Research Track 3:多模态大模型最新的一些论文
LongLLaVA:基于Jamba的多图理解多模态大模型
Fluid:使用连续token表示,随机顺序生成的自回归文生图模型
mini-omni:实时可交互语音大模型
涩涩模型网站!!!你绝对没见过的civitai!!!
Aria:基于MoE架构的原生多模态大模型
Research Track 1:多模态大模型最新的一些论文
Janus:基于分离视觉编码器的统一理解与生成的多模态大模型
OLMoE:基于MoE的全开源大模型
【共享LLM前沿】通俗易懂搞懂四大多模态大模型CLIP BLIP VIT MLLM及对话机器人办公助手!大模型预训练微调
Research Track 5:多模态大模型最新的一些论文
【自学大模型】9小时学懂大模型预训练微调及四大多模态大模型!讯飞大佬通俗易懂讲解如何构建对话机器人办公助手!RLHF、transformer、CLIP、ViT
Emu3:统一理解和生成的多模态大模型
目前B站最全最细的AI大模型零基础全套教程,2024最新版,包含所有干货!7天就能从小白到大神!少走99%的弯路!存下吧!很难找全的!
Research Track 4: 多模态大模型最新的一些论文
这是我迄今为止见过将 Chat GPT 原理最好的可视化。具象化的展示了Transformer神经网络模型结构。像在四维看三维。
【多模态+知识图谱】博士轻松带你从零构建知识图谱!基于知识图谱的六大项目实战—医药问答系统、知识抽取、推荐系统、Neo4j数据库、大模型
大模型RAG企业项目实战:手把手带你基于Langchain搭建一套完整的RAG系统,原理讲解+代码解析,看完就能跑通!LLM大模型_RAG_大模型微调_多模态
ChartMoE:使用MoE adapter的Chart理解多模态大模型
Research Track 6:多模态大模型最新的一些论文
UnifiedMLLM:多任务多模态大模型
TimeCMA:通过跨模态对齐实现LLM驱动的时间序列预测
mPLUG-DocOwl2:多页多模态文档理解大模型
Research Track 2: 多模态大模型最新的一些论文