V
主页
llava-onevision:llava系列集大成者
发布人
project page: https://llava-vl.github.io/blog/2024-08-05-llava-onevision/
打开封面
下载高清视频
观看高清视频
视频下载器
BLIP3: 抛弃Q-former的BLIP
OMG-LLaVA:拥有segmentation能力的视觉多模态大模型
LLaVA-MoD:基于知识蒸馏的小多模态大模型
VITA: 开源版GPT-4o实现
transfusion:统一transformer和diffusion框架的多模态大模型
0.5B小模型将原始HTML完美转换为干净的Markdown,或许专用场景的小模型才是未来主流
mPLUG-Owl3 多图理解多模态大模型
UnifiedMLLM:多任务多模态大模型
Cambrian-1:以视觉为中心,基于多个vision encoder的多模态大模型
The AI Scientist: 用AI完成科研全栈任务
SlowFast-LLaVA:无需训练的视频理解多模态大模型
Qwen2-VL:支持任意精度图片以及视频输入的开源大模型系列
idefics2:视觉多模态大模型的架构探索
OLMoE:基于MoE的全开源大模型
CogVLM2:智谱AI新一代多模态大模型系列
DocLayLLM:高效,SOTA的文档理解多模态大模型
SHOW-o:统一理解和生成任务的transformer
从算法视角理解transformer
这是一只AI女孩子发布一年以来的变化
ChartMoE:使用MoE adapter的Chart理解多模态大模型
agent Q: 超强网页交互agent
LLaMA-omni:低延时的语言交互多模态大模型
超越GPT-4o,阿里新开源Qwen2-VL视觉语言模型
一个操作消除AI味丨这下谁还能分得出真人和AI啊
OpenAI破产危机解除,新估值冲上1000亿,新模型“草莓”秋季见
🦜🔗 LangChain 双周简报(09.03)
GameNGen:使用diffusion model做的游戏引擎
LongLLaVA:基于Jamba的多图理解多模态大模型
NVLM:融合LLaVA和Flamingo架构的多模态大模型系列
【黑神话悟空】训练小狐狸萍萍 FLUX的LoRA演示
Points: 融合多个优化策略的多模态大模型
mini-omni:实时可交互语音大模型
【360AI搜索】国内首发“慢思考模式”AI搜索引擎,思路清晰质量好
Genie:编程助手
【Ai教程】手机可以直接跑最新的Qwen2.5大模型?最简单的三种使用方法一个APP搞定
Open-MAGVIT2基于Lookup-free Quantization的开源图片生成模型
老照片修复2.0,非常破也可以细到发丝哦
【中英字幕】英伟达CEO黄仁勋西装会见印度总理莫迪,接受电视采访:这是属于印度的时刻|2024.09.23
(英译中)Nvidia番外篇:一场亲戚间的商业较量
🆓 Cursor 的免费套餐价值几何?🤔