多模态还能助力NLP任务！上交学者提出TILT方法，利用多模态检索图像增强文本表征，多项NLP下游任务达到SOTA！ - 视频下载 Video Downloader

多模态还能助力NLP任务！上交学者提出TILT方法，利用多模态检索图像增强文本表征，多项NLP下游任务达到SOTA！

发布人

-

打开封面下载高清视频观看高清视频视频下载器

字节提出新的多边形战士，通用基础模型X-FM，将视觉，文本和多模态的训练做到了一个阶段，在多项下游任务表现不错！

AI模型的大一统！微软多模态组提出了多模态领域杀疯了的多边形战士BEIT V3!多项视觉，多模态任务达到SOTA!

阿里联合清华提出了用于医学VQA的新方法RAMM，利用检索增强的策略在医学VQA数据集上取得新SOTA！数据集，代码即将开源！

阿里提出用于视频文本理解的高效多模态模型MuLTI，通过设计了Multiway Sampler和多项选择建模任务在多项视频理解任务上达到新SOTA！

阿里达摩院提出了新的多边形战士模型mPLUG-2，在各种视觉，文本以及多模态任务上均取得不错的性能，超过BEIT V3和EVA！

原来AI真的能生成高颜值美女，快来试试多模态生成模型吧！

中科大提出All-in-One多模态预训练方法，利用统一的多模态互信息提升多模态性能，下游检测分割性能超过BEIT V3！

Adobe研究院提出了用于视频和音频多模态数据的视听对比学习的自监督策略，在多项视频和音频数据集上达到新SOTA！

给多模态加Buffer，GNN在视觉语言下游任务的应用综述来了！包含125篇相关论文，涉及Image Captioning，VQA，Retrieval三大方向！

图像+音频驱动的口播视频生成！谷歌提出VLOGGER！

微软多模态团队提出了新的语言增强多模态预训练大模型，可以类似BLIP2进行多模态chat，效果很惊艳！

微软学者整理了100页图文多模态预训练综述，涉及各种多模态模型和应用，并且附带视频教程，需要的同学快来领取！

CLIP助力跨域目标检测，来自EVEN CVLab的学者提出语义增强策略，提升效果明显

斯坦福学者提出ControlNet，通过对Stable Diffussion生成结果进行控制，即将补完AIGC工业化的最后一块拼图！

亚马逊学者提出Zero-Shot计数新方法！利用预训练的生成模型生成类别原型特征，然后进行patch最邻近搜索，效果远超之前方法！

微软亚研提出了小模型蒸馏方法TinyMIM！MIM预训练小模型性能提升4个百分点！目前模型和代码均已开源！

医学图像分割的新SOTA，亚琛工业大学学者提出DAE-Former,利用双重注意力高效实现医学图像分割！

微软提出了新的模型蒸馏策略G2SD，利用掩码自动编码器结合特征蒸馏和KD蒸馏，学生模型的精度达到教师模型的98%！目前已开源！

腾讯联合新国立提出了一种one-shot文本生成视频的方法！效果超过CogVideo!代码和模型即将开源！

ChatSpot:更精确的带参考坐标多模态指令微调，目前已开源！#计算机 #论文 #nlp #ai #chatgpt

多久？！半天搞定【LSTM时间序列预测任务]项目实战，震惊！（附课件+源码）

北京智源多模态团队提出EVA：多模态助力视觉自监督预训练，加入掩码，视觉表征学习更上一层楼！目前代码和模型已开源！

文本引导的虚拟试衣来了，多模态在时尚领域的又一杀器！一键更换模特服装！目前代码模型已开源！

基于深度学习的视频文本的跨模态检索30页综述来了，包含近7年150篇相关论文！

解锁CLIP长文本能力！即插即用替换CLIP！上海AI Lab提出Long-CLIP！

Kaiming He团队在多模态领域提出的FLIP，结合MAE Masking Image 策略与CLIP，保证精度的同时大幅提升训练效率！

阿里多模态团队基于OFA多模态预训练模型，提出最强中文OCR模型，效果惊艳！

解锁CLIP长文本能力！即插即用替换CLIP！上海AI Lab提出Long-CLIP！

39页视觉问答（VQA）和视觉推理综述论文来了！涉及近30个数据集，50多种经典方法，VQA终于学会了！

Adobe提出基于预训练图像Diffusion模型的视频编辑器，无需训练即可完成视频编辑功能，效果超过Tune-a-Video等方法！

字节联合爱丁堡大学学者提出新的多模态预训练方法MUG，结合MAE和Caption生成

【EMNLP2023】清华联合阿里提出了利用大型语言模型辅助多模态OOD检测的新方法！

DeepMind提出了新的半监督学习方法SEMPPL，结合当前的对比学习自监督学习方案，表征能力得到进一步提升！

CVPR2023发表，LayoutDiffusion：用于Layout控制图像生成的新方法，比之前方法取得了更好的生成质量和更多的可控制性！

谷歌基于Imagen提出了Imagen Editor，文本条件编辑效果超过Stable Diffusion和DALL-E 2！

3D版CLIP横空出世，助力各种点云任务！涨点效果明显！

CVPR2023 | 韩国延边大学提出从图像到视频Transformer的双路自适应网络，仅使用少量学习参数达到多项视频理解任务SOTA，代码已开源！

字节联合浙大提出新的视频语言预训练模型TemPVL，能够显著提升下游多模态视频理解任务性能！

NVIDIA放大招了！在生成模型基础上提出Action-GPT：利用GPT实现任意文本生成动作！效果绝了！

鹏城实验室学者提出了一种新的视频语言多模态预训练模型SOTA-VLP，融合了空间时序建模方法，捕获细粒度特征，多项任务取得SOTA！