字节联合爱丁堡大学提出新的视觉预训练方法MUG，取得新的SOTA！模型和代码均已开源，快来领取！ - 视频下载 Video Downloader

字节联合爱丁堡大学提出新的视觉预训练方法MUG，取得新的SOTA！模型和代码均已开源，快来领取！

发布人

-

打开封面下载高清视频观看高清视频视频下载器

仅需0.5M！可集成任意扩散模型！字节提出灵活分辨率适配器ResAdapter！

幻方发布超强多模态LLM DeepSeek-VL！支持代码，文档OCR等！

上交学者提出了一种利用Diffusion模型生合成语义分割数据集，并基于此训练了一个开放词汇分割的模型，效果惊艳！

阿里发布最强中文图文多模态模型：Chinese CLIP，基于两亿中文图文多模态数据！

图像+音频驱动的口播视频生成！谷歌提出VLOGGER！

腾讯联合浙大提出新的视觉Transformer网络CrossFormer，参数量更少同时性能超过Swin！目前已开源！

CVPR 2023，EVA升级，智源开源更强的视觉预训练模型EVA-2，Vit-L Imagenet精度达到90+！

Adobe提出基于预训练图像Diffusion模型的视频编辑器，无需训练即可完成视频编辑功能，效果超过Tune-a-Video等方法！

【EMNLP2023】清华联合阿里提出了利用大型语言模型辅助多模态OOD检测的新方法！

斯坦福大学AI博士，揭秘最新多模态AI - 杨俊睿 Jackie，MAUI

最强视觉backbone网络ConvNext v2来了！Meta AI融合了视觉掩码自监督框架，提出新的新的SOTA算法！目前代码和模型已开源！

Kaiming He团队在多模态领域提出的FLIP，结合MAE Masking Image 策略与CLIP，保证精度的同时大幅提升训练效率！

北京智源多模态团队提出EVA：多模态助力视觉自监督预训练，加入掩码，视觉表征学习更上一层楼！目前代码和模型已开源！

大语言模型中RLHF的秘密，PPO算法的详解，相关代码已开源！！#科研 #论文 #ai #计算机 #NLP

腾讯联合新国立提出了一种one-shot文本生成视频的方法！效果超过CogVideo!代码和模型即将开源！

微软学者整理了100页图文多模态预训练综述，涉及各种多模态模型和应用，并且附带视频教程，需要的同学快来领取！

字节提出新的多边形战士，通用基础模型X-FM，将视觉，文本和多模态的训练做到了一个阶段，在多项下游任务表现不错！

基于Diffusion模型的DiffFace来了，交换效果超过之前的经典模型！代码和模型即将开源！

【NeurIPS 2023】华为诺亚提出新的YOLO检测模型:Gold-YOLO,达到YOLO系列新SOTA!!

谷歌提出利用语言大模型重写caption来提升图文多模态预训练模型，简单技巧即可提升CLIP多项zeroshot 性能！代码已开源！

鹏城实验室学者提出了一种新的视频语言多模态预训练模型SOTA-VLP，融合了空间时序建模方法，捕获细粒度特征，多项任务取得SOTA！

多模态还能助力NLP任务！上交学者提出TILT方法，利用多模态检索图像增强文本表征，多项NLP下游任务达到SOTA！

三个超变态的AI网站，能提前让你过上退休生活！！！

NEURA 与 NVIDIA 携手重新定义机器人技术的未来！

MIT联合清华提出基于知识的视觉推理多模态模型IPVR，模拟人类视觉推理，取得较好效果！

支持语音，图像，文本，音乐等模态输入！上海AI Lab提出任意多模态语言模型AnyGPT！

当医学图像遇上SAM，会产生什么样的火花，基于SAM的医学图像分割finetune框架来了，附代码！

阿里多模态团队基于OFA多模态预训练模型，提出最强中文OCR模型，效果惊艳！

亚马逊联合牛津提出了用于多模态理解的三元对比学习TCL，在CLIP的基础上提升了多模态模型的跨模态理解能力！

CVPR2023 VindLU：有效的视频和语言预训练方案，在多项视频理解任务上取得SOTA水平！

AI模型的大一统！微软多模态组提出了多模态领域杀疯了的多边形战士BEIT V3!多项视觉，多模态任务达到SOTA!

Adobe提出超越Stable Diffusion的GAN网络，10亿参数量模型速度吊打Stable Diffusion！目前已被CVPR2023接收！

来自真实用户的百万级文本视频数据！Sora时代的视频生成数据集VidProM开源了！

Human Action Recognition综述来了，近10年160篇论文，涉及RNN和CNN类型的方法，需要的同学快来领取！

国科大联合华为提出金字塔结构的特征MIM预训练方法，性能大幅超越MAE等视觉掩码自监督方法！

超过IP-Adapter！中科大提出超保真ID个性化AIGC新方法Infinite-ID！

中科大提出All-in-One多模态预训练方法，利用统一的多模态互信息提升多模态性能，下游检测分割性能超过BEIT V3！

北大联合南洋理工提出了一种简单有效的开放词汇实例分割框架，分割效果惊艳！

ChatSpot:更精确的带参考坐标多模态指令微调，目前已开源！#计算机 #论文 #nlp #ai #chatgpt

字节联合爱丁堡大学学者提出新的多模态预训练方法MUG，结合MAE和Caption生成