V
主页
SHOW-o:统一理解和生成任务的transformer
发布人
arxiv: https://arxiv.org/pdf/2408.12528 github:https://github.com/showlab/Show-o
打开封面
下载高清视频
观看高清视频
视频下载器
VITA: 开源版GPT-4o实现
transfusion:统一transformer和diffusion框架的多模态大模型
【全网最新v4.9 SD教程】秋叶大神Stable Diffusion v4.9整合包! 零基础入门到精通全套SD教程,这可能是B站唯一能将SD讲明白的教程,
火火火!多模态生成发文量大涨!最新成果统一Transformer和Diffusion,含金量这一次直接爆表!
OMG-LLaVA:拥有segmentation能力的视觉多模态大模型
从算法视角理解transformer
Qwen2-VL:支持任意精度图片以及视频输入的开源大模型系列
eagle:多个Vision Encoder的多模态大模型
【论文精讲】精讲Diffusion Policy扩散策略:基于扩散模型的机器人动作生成策略
LongLLaVA:基于Jamba的多图理解多模态大模型
agent Q: 超强网页交互agent
Cambrian-1:以视觉为中心,基于多个vision encoder的多模态大模型
The AI Scientist: 用AI完成科研全栈任务
Open-MAGVIT2基于Lookup-free Quantization的开源图片生成模型
mini-omni:实时可交互语音大模型
mPLUG-DocOwl2:多页多模态文档理解大模型
UnifiedMLLM:多任务多模态大模型
mPLUG-Owl3 多图理解多模态大模型
llava-onevision:llava系列集大成者
ChartMoE:使用MoE adapter的Chart理解多模态大模型
BLIP3: 抛弃Q-former的BLIP
LLaVA-MoD:基于知识蒸馏的小多模态大模型
CogVLM2:智谱AI新一代多模态大模型系列
Points: 融合多个优化策略的多模态大模型
DocLayLLM:高效,SOTA的文档理解多模态大模型
OLMoE:基于MoE的全开源大模型
Qwen2-VL-7B实现精准pdf转markdown,从原理、代码实现、存在问题以及优化方向全流程讲解
Genie:编程助手
research track 1:多模态大模型最新的一些论文
【AI虚拟伙伴】探索版v2.0发布 新增主动感知引擎 对接本地知识库 枫语云心AI
一口气了解FLUX.1:AI生图的“新王”,凭什么震惊世界?FLUX模型使用教程,基本用法到进阶应用,一网打尽!(含SD Forge与ComfyUI整合包)
草履虫都能听懂!B站最全最详细的【时间序列预测模型】教程,从入门到精通!(LSTM/Informer/ARIMA/PandasTransformer)
【卓卓】如何最直接、通俗地理解Transformer?
多模态大模型真的杀疯了!一口气带你学完Openai CLIP模型、Diffusion模型、对比学习、Huggingface四大模型!真的非常通俗易懂!!
人工智能的7个可怕阶段:AI(人工智能)+ AGI(通用人工智能)+ ASI(超级智能)+ 奇点 人工智能课程
研一研二必看!清华大佬刘知远团队【AI大模型】教程,看完少走99%的弯路!!!
phi-3.5:微软大模型系列
时隔一年半,吴恩达亲授最新AI课程汇总(4集全):初学者的AI+PYTHON---AI Python for Beginners
2024论文必备:Transformer实战系列——基于Transformer实现的各大项目实战课程,从原理到代码实现,绝对通俗易懂!
吴恩达同步更新AI课,第52讲:多模态RAG,与视频聊天。Multimodal RAG: Chat with Videos