SHOW-o：统一理解和生成任务的transformer - 视频下载 Video Downloader

SHOW-o：统一理解和生成任务的transformer

发布人

arxiv： https://arxiv.org/pdf/2408.12528
github：https://github.com/showlab/Show-o

打开封面下载高清视频观看高清视频视频下载器

VITA: 开源版GPT-4o实现

transfusion：统一transformer和diffusion框架的多模态大模型

【全网最新v4.9 SD教程】秋叶大神Stable Diffusion v4.9整合包！零基础入门到精通全套SD教程，这可能是B站唯一能将SD讲明白的教程，

火火火！多模态生成发文量大涨！最新成果统一Transformer和Diffusion，含金量这一次直接爆表！

OMG-LLaVA：拥有segmentation能力的视觉多模态大模型

从算法视角理解transformer

Qwen2-VL：支持任意精度图片以及视频输入的开源大模型系列

eagle：多个Vision Encoder的多模态大模型

【论文精讲】精讲Diffusion Policy扩散策略：基于扩散模型的机器人动作生成策略

LongLLaVA:基于Jamba的多图理解多模态大模型

agent Q: 超强网页交互agent

Cambrian-1：以视觉为中心，基于多个vision encoder的多模态大模型

The AI Scientist: 用AI完成科研全栈任务

Open-MAGVIT2基于Lookup-free Quantization的开源图片生成模型

mini-omni：实时可交互语音大模型

mPLUG-DocOwl2：多页多模态文档理解大模型

UnifiedMLLM：多任务多模态大模型

mPLUG-Owl3 多图理解多模态大模型

llava-onevision：llava系列集大成者

ChartMoE：使用MoE adapter的Chart理解多模态大模型

BLIP3: 抛弃Q-former的BLIP

LLaVA-MoD：基于知识蒸馏的小多模态大模型

CogVLM2：智谱AI新一代多模态大模型系列

Points: 融合多个优化策略的多模态大模型

DocLayLLM：高效，SOTA的文档理解多模态大模型

OLMoE：基于MoE的全开源大模型

Qwen2-VL-7B实现精准pdf转markdown，从原理、代码实现、存在问题以及优化方向全流程讲解

Genie：编程助手

research track 1：多模态大模型最新的一些论文

【AI虚拟伙伴】探索版v2.0发布新增主动感知引擎对接本地知识库枫语云心AI

一口气了解FLUX.1：AI生图的“新王”，凭什么震惊世界？FLUX模型使用教程，基本用法到进阶应用，一网打尽！（含SD Forge与ComfyUI整合包）

草履虫都能听懂！B站最全最详细的【时间序列预测模型】教程，从入门到精通！（LSTM/Informer/ARIMA/PandasTransformer）

【卓卓】如何最直接、通俗地理解Transformer？

多模态大模型真的杀疯了！一口气带你学完Openai CLIP模型、Diffusion模型、对比学习、Huggingface四大模型！真的非常通俗易懂！！

人工智能的7个可怕阶段：AI（人工智能）+ AGI（通用人工智能）+ ASI（超级智能）+ 奇点人工智能课程

研一研二必看！清华大佬刘知远团队【AI大模型】教程，看完少走99%的弯路！！！

phi-3.5：微软大模型系列

时隔一年半，吴恩达亲授最新AI课程汇总(4集全)：初学者的AI+PYTHON---AI Python for Beginners

2024论文必备：Transformer实战系列——基于Transformer实现的各大项目实战课程，从原理到代码实现，绝对通俗易懂！

吴恩达同步更新AI课，第52讲：多模态RAG,与视频聊天。Multimodal RAG: Chat with Videos