给多模态加Buffer，GNN在视觉语言下游任务的应用综述来了！包含125篇相关论文，涉及Image Captioning，VQA，Retrieval三大方向！ - 视频下载 Video Downloader

给多模态加Buffer，GNN在视觉语言下游任务的应用综述来了！包含125篇相关论文，涉及Image Captioning，VQA，Retrieval三大方向！

发布人

-

打开封面下载高清视频观看高清视频视频下载器

图神经网络GNN实战系列：清华大佬带你手撕GCN、GAT、PyG、GTN、DySAT等项目源码，全程比刷剧还爽！

CVPR2023 基于掩码的视觉和语言Transformer，能够同时完成以文生图和Image Captioning两种多模态生成任务，且效果非常不错！

深度学习最热方向！今年最全的多模态大模型综述来啦！-神经网络/大模型/LLM

关于《多模态大型语言模型》的最新综述，从对比到分析再到不足，为其发展提供宝贵意见

鹏城实验室学者提出了一种新的视频语言多模态预训练模型SOTA-VLP，融合了空间时序建模方法，捕获细粒度特征，多项任务取得SOTA！

【多模态大模型高峰论坛】金连文教授：多模态大模型技术及其在OCR的应用

京东提出全球首个面向遥感任务设计的亿级视觉Transformer大模型，基于百万级遥感数据集进行预训练，下游检测，分割等任务性能SOTA，目前模型和代码已开源！

2024最好出创新点的方向：【对比学习+多模态】CLIP模型、Dalle2、多模态3D目标检测、MedCLIP医学图像文本，计算机博士带你轻松搞定论文创新点！

图片视频内容分析总结对话软件，视觉语言理解多模态大语言模型，MiniCPM-V一键整合包下载

AI模型的大一统！微软多模态组提出了多模态领域杀疯了的多边形战士BEIT V3!多项视觉，多模态任务达到SOTA!

9位Science院士联名发表人工智能发展长篇综述，涵盖了智能计算的基础理论，智能计算融合的重要应用和挑战！

39页视觉问答（VQA）和视觉推理综述论文来了！涉及近30个数据集，50多种经典方法，VQA终于学会了！

跨模态细粒度高清检索项目

GNN图神经网络零基础入门：GCN图卷积、PyTorch Geometric、图注意力机制、图相似度计算全详解，迪哥半天带你搞定GNN！

CVPR 2023，EVA升级，智源开源更强的视觉预训练模型EVA-2，Vit-L Imagenet精度达到90+！

如何最快速写一篇论文？手把手教你！多模态无人机检测

AI可解释性综述来了，神经网络的黑盒性质经常被许多学者Diss，而可解释性方法让AI不在是完全黑盒！

【卓卓】如何最直接、通俗地理解Transformer？

GNN图神经网络实战：基于GNN实现驾驶轨迹预测，论文解读+源码复现！（深度学习/计算机视觉/自动驾驶）

Mamba卷到多模态了！基于Mamba的多模态大语言模型VL-Mamba来了！

一文读懂多模态，230页多模态综述开源了！涵盖了CV，NLP，图文多模态的经典方法和SOTA模型

全球首个！清华/上海交大等联合构建面向糖尿病诊疗的视觉-大语言模型，登 Nature 子刊

上海交大学者提出了第一个用于医学图像诊断的多模态ChatGPT模型，在各种医学诊断任务上取得SOTA！

动作识别最新综述来了，包含RNN，3D卷积以及Transformer等算法，涉及近300篇相关论文！

GNN图神经网络：SimGNN图相似度计算实战，论文解读+代码复现，究极通俗易懂！（深度学习/计算机视觉）

阿里发布最强中文图文多模态模型：Chinese CLIP，基于两亿中文图文多模态数据！

微软多模态团队提出了新的语言增强多模态预训练大模型，可以类似BLIP2进行多模态chat，效果很惊艳！

鹏城实验室开放了45页多模态预训练大模型综述！总结了近5年多模态预训练相关的算法和数据！多模态预训练学习包！

华为诺亚提出视觉文档理解多模态预训练模型WuKong-Reader，在百万级文档数据上进行了预训练，多项下游任务效果SOTA！

阿里达摩院提出了新的多边形战士模型mPLUG-2，在各种视觉，文本以及多模态任务上均取得不错的性能，超过BEIT V3和EVA！

基于Diffusion模型的以文生图综述来了！包含145篇相关论文，涉及Diffusion相关理论和基础介绍！

研究生必读的一本神书，教你如何坚持写paper，超全的学术论文写作语料库！

多模态Chat来了，Salesforce Research学者提出BLIP-2，利用多模态预训练和语言大模型能力在相关任务上取得SOTA，也可以实现多模态对话！

基于Transformer的医学图像分析综述来了，包含200多篇论文，涉及分类，分割，定位以及captioning等任务！

李飞飞团队重磅开源ReKep：万能具身机器人！实时交互，还可搭载GPT-4o！在微信公众号「3D视觉

华为诺亚实验室提出NLIP多模态模型：仅用2900万数据性能超过BLIP和CLIP等亿级数据训练的多模态模型！

20年预训练大模型98页百科全书来了！从Bert到ChatGPT，涉及CV，NLP，Graph以及多模态等，史上最全综述！

目标检测20年大综述来了，涉及了近240篇相关论文，涵盖了各种经典的目标检测算法！

NVIDIA放大招了！在生成模型基础上提出Action-GPT：利用GPT实现任意文本生成动作！效果绝了！

极市直播第134期｜更强VideoChat来袭！InternVideo2：扩展多模态视频理解的基础模型