V
主页
给多模态加Buffer,GNN在视觉语言下游任务的应用综述来了!包含125篇相关论文,涉及Image Captioning,VQA,Retrieval三大方向!
发布人
-
打开封面
下载高清视频
观看高清视频
视频下载器
图神经网络GNN实战系列:清华大佬带你手撕GCN、GAT、PyG、GTN、DySAT等项目源码,全程比刷剧还爽!
CVPR2023 基于掩码的视觉和语言Transformer,能够同时完成以文生图和Image Captioning两种多模态生成任务,且效果非常不错!
深度学习最热方向!今年最全的多模态大模型综述来啦!-神经网络/大模型/LLM
关于《多模态大型语言模型》的 最新综述,从对比到分析再到 不足,为其发展提供宝贵意见
鹏城实验室学者提出了一种新的视频语言多模态预训练模型SOTA-VLP,融合了空间时序建模方法,捕获细粒度特征,多项任务取得SOTA!
【多模态大模型高峰论坛】金连文教授:多模态大模型技术及其在OCR的应用
京东提出全球首个面向遥感任务设计的亿级视觉Transformer大模型,基于百万级遥感数据集进行预训练,下游检测,分割等任务性能SOTA,目前模型和代码已开源!
2024最好出创新点的方向:【对比学习+多模态】CLIP模型、Dalle2、多模态3D目标检测、MedCLIP医学图像文本,计算机博士带你轻松搞定论文创新点!
图片视频内容分析总结对话软件,视觉语言理解多模态大语言模型,MiniCPM-V一键整合包下载
AI模型的大一统!微软多模态组提出了多模态领域杀疯了的多边形战士BEIT V3!多项视觉,多模态任务达到SOTA!
9位Science院士联名发表人工智能发展长篇综述,涵盖了智能计算的基础理论,智能计算融合的重要应用和挑战!
39页视觉问答(VQA)和视觉推理综述论文来了!涉及近30个数据集,50多种经典方法,VQA终于学会了!
跨模态细粒度高清检索项目
GNN图神经网络零基础入门:GCN图卷积、PyTorch Geometric、图注意力机制、图相似度计算全详解,迪哥半天带你搞定GNN!
CVPR 2023,EVA升级,智源开源更强的视觉预训练模型EVA-2,Vit-L Imagenet精度达到90+!
如何最快速写一篇论文?手把手教你!多模态无人机检测
AI可解释性综述来了,神经网络的黑盒性质经常被许多学者Diss,而可解释性方法让AI不在是完全黑盒!
【卓卓】如何最直接、通俗地理解Transformer?
GNN图神经网络实战:基于GNN实现驾驶轨迹预测,论文解读+源码复现!(深度学习/计算机视觉/自动驾驶)
Mamba卷到多模态了!基于Mamba的多模态大语言模型VL-Mamba来了!
一文读懂多模态,230页多模态综述开源了!涵盖了CV,NLP,图文多模态的经典方法和SOTA模型
全球首个!清华/上海交大等联合构建面向糖尿病诊疗的视觉-大语言模型,登 Nature 子刊
上海交大学者提出了第一个用于医学图像诊断的多模态ChatGPT模型,在各种医学诊断任务上取得SOTA!
动作识别最新综述来了,包含RNN,3D卷积以及Transformer等算法,涉及近300篇相关论文!
GNN图神经网络:SimGNN图相似度计算实战,论文解读+代码复现,究极通俗易懂!(深度学习/计算机视觉)
阿里发布最强中文图文多模态模型:Chinese CLIP,基于两亿中文图文多模态数据!
微软多模态团队提出了新的语言增强多模态预训练大模型,可以类似BLIP2进行多模态chat,效果很惊艳!
鹏城实验室开放了45页多模态预训练大模型综述!总结了近5年多模态预训练相关的算法和数据!多模态预训练学习包!
华为诺亚提出视觉文档理解多模态预训练模型WuKong-Reader,在百万级文档数据上进行了预训练,多项下游任务效果SOTA!
阿里达摩院提出了新的多边形战士模型mPLUG-2,在各种视觉,文本以及多模态任务上均取得不错的性能,超过BEIT V3和EVA!
基于Diffusion模型的以文生图综述来了!包含145篇相关论文,涉及Diffusion相关理论和基础介绍!
研究生必读的一本神书,教你如何坚持写paper,超全的学术论文写作语料库!
多模态Chat来了,Salesforce Research学者提出BLIP-2,利用多模态预训练和语言大模型能力在相关任务上取得SOTA,也可以实现多模态对话!
基于Transformer的医学图像分析综述来了,包含200多篇论文,涉及分类,分割,定位以及captioning等任务!
李飞飞团队重磅开源ReKep:万能具身机器人!实时交互,还可搭载GPT-4o!在微信公众号「3D视觉
华为诺亚实验室提出NLIP多模态模型:仅用2900万数据性能超过BLIP和CLIP等亿级数据训练的多模态模型!
20年预训练大模型98页百科全书来了!从Bert到ChatGPT,涉及CV,NLP,Graph以及多模态等,史上最全综述!
目标检测20年大综述来了,涉及了近240篇相关论文,涵盖了各种经典的目标检测算法!
NVIDIA放大招了!在生成模型基础上提出Action-GPT:利用GPT实现任意文本生成动作!效果绝了!
极市直播第134期|更强VideoChat来袭!InternVideo2:扩展多模态视频理解的基础模型