V
主页
Janus:基于分离视觉编码器的统一理解与生成的多模态大模型
发布人
arxiv:https://arxiv.org/abs/2410.13848 github:https://github.com/deepseek-ai/Janus
打开封面
下载高清视频
观看高清视频
视频下载器
【AI大模型实战】两小时带你彻底掌握提示工程(Prompt Engineering)超详细,草履虫都能听懂!!!(大模型|LLM|多模态|人工智能)
VILA-U:端到端的统一理解和生成任务的多模态大模型
SlowFast-LLaVA:无需训练的视频理解多模态大模型
LLaVA-MoD:基于知识蒸馏的小多模态大模型
OMG-LLaVA:拥有segmentation能力的视觉多模态大模型
【全374集】2024最新清华内部版!终于把AI大模型(LLM)讲清楚了!全程干货讲解,通俗易懂,拿走不谢!
Emu3:统一理解和生成的多模态大模型
transfusion:统一transformer和diffusion框架的多模态大模型
【共享LLM前沿】假如我从11月1号开始学大模型!9小时学会搭建对话机器人办公助手、大模型预训练微调、四大多模态大模型!
RAR:一个基于token shuffling的提升自回归架构图片生成模型表现的策略
NVLM:融合LLaVA和Flamingo架构的多模态大模型系列
ChartMoE:使用MoE adapter的Chart理解多模态大模型
【Agent+RAG】10小时博士精讲AI Agent(人工智能体)系列—提示工程、文本大模型、GPT...
Points: 融合多个优化策略的多模态大模型
AVG-LLaVA:自适应尺度视觉特征选择的多模态大模型
花了我6800,大模型算法工程师稳了!构建专属大模型的大模型入门到就业教程,人工智能、神经网络、transformer、视觉模型、NLP、提示工程
mini-Gemini:支持高精度图片输入的多模态大模型
【吴恩达最新课程】面向初学者的 AI Python:AI Python 编码基础知识!最适合AI大模型小白的Python入门教程!
Cambrian-1:以视觉为中心,基于多个vision encoder的多模态大模型
mono-internvl:一体化的多模态大模型
SHOW-o:统一理解和生成任务的transformer
mPLUG-DocOwl2:多页多模态文档理解大模型
LongLLaVA:基于Jamba的多图理解多模态大模型
【共享LLM前沿】通俗易懂搞懂四大多模态大模型CLIP BLIP VIT MLLM及对话机器人办公助手!大模型预训练微调
LLaMA3.2:LLaMA3.2大模型系列
绝对通俗易懂!6个小时带你啃透四大多模态大模型CLIP BLIP VIT MLLM及对话机器人办公助手!手把手教如何训练多模态大模型!
Research Track 4: 多模态大模型最新的一些论文
UnifiedMLLM:多任务多模态大模型
Research Track 6:多模态大模型最新的一些论文
大模型RAG企业项目实战:手把手带你基于Langchain搭建一套完整的RAG系统,原理讲解+代码解析,看完就能跑通!LLM大模型_RAG_大模型微调_多模态
国内ChatGPT最新免费白嫖教程!用到就是赚到!
Open-MAGVIT2基于Lookup-free Quantization的开源图片生成模型
agent Q: 超强网页交互agent
【从零开始打造专属大模型】60小时自学大模型原理基础到实战!提示工程、 LangChain、NLP、神经网络、数据预处理、LLM生成模型
B站强推!不愧是字节大佬讲解的【AI产品经理】教程,23集付费课程(附资料)究极通俗易懂 学完即就业!
mPLUG-Owl3 多图理解多模态大模型
LLaMA-omni:低延时的语言交互多模态大模型
MLLM多模态大模型三大奠基模型:VIT/CLIP/BLIP模型原理详解+项目实战,通俗易懂的大模型入门教程!
谁敢信我用AI全自动生成小说!
CogVLM2:智谱AI新一代多模态大模型系列