V
主页
LLaVA-OneVision:轻松的视觉任务转移
发布人
我们推出了 LLaVA-OneVision,这是一个开放式大型多模态模型 (LMM) 系列,通过整合我们对 LLaVA-NeXT 博客系列中的数据、模型和视觉表示的见解而开发。我们的实验结果表明,LLaVA OneVision 是第一个能够在三个重要计算机视觉场景(单图像、多图像和视频场景)中同时突破开 放式 LMM 性能极限的单一模型。重要的是,LLaVA-OneVision 的设计允许跨不同模式/场景进行强 大的迁移学习,从而产生新的能力。特别是,通过从图像到视频的任务转移,展示了强大的视频 理解和跨场景能力。
打开封面
下载高清视频
观看高清视频
视频下载器
LLaMA-Omni:与大型语言模型的无缝语音交互
提出了TopoNet,这是一个端到端的框架,能够抽象出超越传统感知任务的交通知识
ominiDrive--将VLM大模型和BEV算法完美的结合在一起!
DriveVLM-通过结合视觉-语言模型(VLMs)来提升自动驾驶车辆的场景理解与规划能力
华科&地平线最新!Senna:连接视觉语言模型与端到端自动驾驶
OccSora在自动驾驶领域提出了一种新的模拟方法,通过4D占用生成模型来更好地理解和预测驾驶场景的时空分布
OccWorld--面向自动驾驶未来的3D占用世界模型新方案
PARA-Drive--一种新的端到端自动驾驶架构!
Occ_LLAMA--自动驾驶任务的多模态世界模型
Robot Parkour Learning -- 基于强化学习端到端的跑酷机器人
下一波AI浪潮:物理AI | 英伟达 | 2024.10.25
Gen-Drive通过结合生成模型、场景评估和强化学习微调,为自动驾驶领域提供了一种新的规划方法,旨在提高自动驾驶系统的决策质量和适应性。
面对量产的自动驾驶无图技术路线--- CVPR2024 无图驾驶挑战赛参赛方案解读(二)
端到端自动驾驶超视距感知能力获得--- Map as Sensor(自动驾驶之星社区活动)
端到端决策规划现状与挑战--自动驾驶之星第六次活动
字节跳动机器人发力--GR-2 是一个先进的通用机器人代理,用于多样化和可泛化的机器人操控。 通过在大量互联网视频上进行预训练,GR-2 能够泛化
Nature新研究:大模型越大,越爱胡说八道
BEVFusion 论文效果
【B站强推!】这可能是B站目前唯一能将【3D点云+三维重建】讲清楚的教程了,看完小白也能信手拈来,建议收藏!计算机视觉|点云
【太好啦,是OpenCV全套入门教程,我们有救啦!】草履虫都能学会!-附课件代码
论文没创新点或者不够?全新视觉模型框架VIG,再不尝试就又要泛滥啦!打败CNN和VIT!
2024吹爆!李永乐老师深度讲解AI!带你了解电脑如何像人一样思考,带你学习AI前沿技术/人工智能/机器学习/深度学习/神经网络/计算机技术
强推!OpenCV+YOLO 实时目标检测实战教程,最详细的学习路线+技能介绍,毕设成功拿下!(深度学习丨计算机视觉丨YOLO丨OpenCV | 人工智能)
太厉害了 已跪!终于有人能把OpenCV图像处理讲的这么通俗易懂了,现在计算机视觉opencv全套分享给大家。
自动驾驶生成式未来时刻到来!
禁止低效啃书!《清华高翔博士-视觉SLAM14讲》视频教程全集,简直不要太强!
这可能是B站最全面的【3D点云+三维重建】教程!原理解读+实战分析,迪哥带你一口气学完!计算机视觉
问卷数据实操!问卷星下载数据如何处理才能导入spss分析? #问卷 #问卷调查 #spss #实证分析 #论文写作
【YOLOv11】一小时速通版!知名博士逐一解读配置文件以及代码复现,环境安装+推理+自定义数据集搭建与训练,入门到精通!
都2024了,还不知道先学Transformer还是Diffusion?迪哥精讲BERT、Swin、DETR、VIT四大核心模型,原理讲解+论文解读+代码复现!
吃透多模态四大模型!计算机大佬带你一口气学会:CLIP BLIP VIT MLLM多模态底层逻辑!真的通俗易懂!带你真正的对话机器人!(人工智能、深度学习)
【视频+教材】原著大佬李沐带你读《动手学习深度学习》真的通俗易懂!深度学习入门必看!(人工智能、机器学习、神经网络、计算机视觉、图像处理、AI)
(ECCB 2024)小波变换卷积模块,引入频域信息,涨点起飞
【AI学习路线图】如何成为人工智能方面的专家,零基础也能轻松入门,到底怎么学都给你整明白了!-python、机器学习、深度学习、计算机视觉、NLP
多模态大模型的时代 | 多模态大模型的基本概念
动画讲解离散傅里叶变换
面对量产的自动驾驶无图技术路线--- CVPR2024 无图驾驶挑战赛参赛方案解读(一)
这才是科研人该学的【Opencv+Pytorch】教程!一口气学完目标检测、图像分割、语义分割、图像生成,算法原理+实验分析,太通俗易懂了!机器学习|深度学习
马斯克:AI最大的影响将在哪里?| 优质访谈分享
【同济唐宇迪】深度学习先学哪个框架?公认讲的最好的【Pytorch和TensorFlow全套教程】一网打尽,完爆同级别所有教程!