V
主页
CVPR2023|MaPLe:多模态Prompt Learning
发布人
https://www.youtube.com/watch?v=fmULeaqAzfg 主页:https://muzairkhattak.github.io/multimodal-prompt-learning/ 代码:https://github.com/muzairkhattak/multimodal-prompt-learning CLIP 等预训练视觉语言 (V-L) 模型已显示出对下游任务的出色泛化能力。 但是,它们对输入文本提示的选择很敏感,需要仔细选择提示模板才能发挥良好的作用。 受自然语言处理 (NLP) 文献的启发,最近的 CLIP 适应方法将提示作为文本输入来为下游任务微调 CLIP。 我们注意到,在 CLIP(语言或视觉)的单个分支中使用提示来调整表示是次优的,因为它不允许在下游任务中灵活地动态调整两个表示空间。 在这项工作中,我们为视觉和语言分支提出了多模式Prompt Learning(MaPLe),以改善视觉和语言表示之间的对齐。 我们的设计促进了视觉语言提示之间的强耦合,以确保相互协同作用,并阻止学习独立的单模态解决方案。 此外,我们在不同的早期阶段学习单独的提示,以逐步对阶段特征关系进行建模,以允许丰富的上下文学习。 我们评估了我们的方法在新类泛化、新目标数据集和未见域转移这三个代表性任务上的有效性。 与最先进的方法 Co-CoOp 相比,MaPLe 表现出良好的性能,在新类上实现了 3.45% 的绝对增益,在 11 个不同的图像识别数据集上平均实现了 2.72% 的整体调和平均增益。
打开封面
下载高清视频
观看高清视频
视频下载器
CVPR2023|首个可用于超高质量3D数字人生成的3D扩散生成模型!支持照片或者文本描述定制
【2024最全实战项目】整整100个OpenCV练手项目合集,学习计算机视觉图像处理必备,练完即可毕业,练手项目~项目经验~毕设/课设
CVPR2023|HairStep:使用strand和深度图实现单视图 3D 头发建模
(强推)2024年OpenCV超实用实战项目,从入门到超神(图像处理opencv)
【个人经验 | 算法工程师自学路线】别再看乱七八糟的教程了,做正确的努力吧!-人工智能、CV、NLP、AI、推荐算法、搜索算法、机器学习、深度学习
【CVPR 2024】即插即用!一种把任意3D场景感知模型转换成在线检测模型的适配器
CVPR2023 | 3D-POP:一种自动标注方法,通过基于标记的运动捕捉鸽子姿势
ICCV 2023|迭代prompt学习用于无监督背光图像增强
2024最火的两个模型:Informer+LSTM两大时间序列预测模型,论文精读+代码复现,究极通俗易懂!——人工智能|AI|机器学习|深度学习
可以说是24年多模态初学者最新最全的学习路线了!解析了近百个模型!星标超10K!
CVPR2022 | 清华提出OcclusionFusion:实时动态 3D 重建的遮挡感知运动估计
吹爆!【解决90%深度学习问题!】牛津大学博士、训练了世界上最大的人工神经网络,耗时三年撰写的深度学习图解书籍
看图说话!端到端多模态理解!ICCV2021
Diffusion Model(扩散模型)!2024年公认最通俗易懂的扩散模型来了!3小时入门到精通!建议收藏!(人工智能/深度学习/机器学习/神经网络/AI)
视频内容生成!Text2Performer:文本驱动的真人视频生成
火遍油管!大神把【马尔科夫链】给做成动画了!一步一步动画深入理解原理,从模型理论到核心概念 (附讲解视频+资料)-机器学习算法、马尔科夫链、随机过程
ECCV 2022 | 深度图分解用于单目深度估计
CVPR 2023 | Im2Hands :交互双手形状表征
ICML 2021 | 深度学习类别不平衡回归研究
2024世界人工智能大会,热闹的背后,是被孤立的冷冷清清
B站强推!一口气学完人工智能入门到精通:机器学习+深度学习+强化学习,课程涵盖所有基础知识及项目实战,主打一个通俗易懂!
基于YOLOV8的疲劳检测,考试破防周,你疲劳吗?
人生苦短,我用知识图谱!国内顶尖学府北大强推的【知识图谱导论】教程分享!博导花半天教你掌握人工智能必备知识图谱课程!_人工智能/机器学习/神经网络/知识图谱
全球人工智能大会主持人尴尬瞬间
博士生每天科研时间是多久?
【全368集】清华大佬终于把机器学习做成动画片了,2024最新版,7天学完机器学习十二大算法,学完即实战,拿走不谢,学不会我退出IT圈!
基于神经场表征的三维场景理解
用OpenCV做YOLOv5实时目标检测,计算机博士带你做实战!
CVPR 2024 — 神经网络学到的东西原来和人类大脑差不多?哪些预训练模型才是真·人工智能?这篇文章都能回答,脑洞太大了!
大模型微调和RAG究竟是为了解决什么问题?看计算机博士唐宇迪如何解答!!——(人工智能、深度学习、机器学习、图像处理、PYTORCH)
B站首推!不愧是周志华老师讲的【机器学习】简直太详细!通俗易懂!西瓜书全网最详尽讲解-1080P高清原版
人工智能必会:LLM的诞生!BLIP多模态大模型讲了什么?自举是什么,有什么优势?
ICCV2023 | 递归视频车道线检测
AAAI2023|清华提出StyleTalk:说话风格可控的One-shot Talking Head Generation
UniColor - 使用 Transformer 进行多模态着色的统一框架 SIGGRAPH Asia 2022
跟踪一切!收录顶会ECCV 2024!DINO-Tracker:遮挡也不怕!太疯狂!
CVPR2023!使用文本到图像扩散模型的开放词汇全景分割
CVPR2022 | UIUC&腾讯&清华提出FENeRF : Face Editing in Neural Radiance Fields
ECCV2022 | 查找表实现高效的图像超分辨率!代码开源
OpenAI关停服务 压制不住中国大模型的发展