V
主页
字节联合爱丁堡大学提出新的视觉预训练方法MUG,取得新的SOTA!模型和代码均已开源,快来领取!
发布人
-
打开封面
下载高清视频
观看高清视频
视频下载器
仅需0.5M!可集成任意扩散模型!字节提出灵活分辨率适配器ResAdapter!
幻方发布超强多模态LLM DeepSeek-VL!支持代码,文档OCR等!
上交学者提出了一种利用Diffusion模型生合成语义分割数据集,并基于此训练了一个开放词汇分割的模型,效果惊艳!
阿里发布最强中文图文多模态模型:Chinese CLIP,基于两亿中文图文多模态数据!
图像+音频驱动的口播视频生成!谷歌提出VLOGGER!
腾讯联合浙大提出新的视觉Transformer网络CrossFormer,参数量更少同时性能超过Swin!目前已开源!
CVPR 2023,EVA升级,智源开源更强的视觉预训练模型EVA-2,Vit-L Imagenet精度达到90+!
Adobe提出基于预训练图像Diffusion模型的视频编辑器,无需训练即可完成视频编辑功能,效果超过Tune-a-Video等方法!
【EMNLP2023】清华联合阿里提出了利用大型语言模型辅助多模态OOD检测的新方法!
斯坦福大学AI博士,揭秘最新多模态AI - 杨俊睿 Jackie,MAUI
最强视觉backbone网络ConvNext v2来了!Meta AI融合了视觉掩码自监督框架,提出新的新的SOTA算法!目前代码和模型已开源!
Kaiming He团队在多模态领域提出的FLIP,结合MAE Masking Image 策略与CLIP,保证精度的同时 大幅提升训练效率!
北京智源多模态团队提出EVA:多模态助力视觉自监督预训练,加入掩码,视觉表征学习更上一层楼!目前代码和模型已开源!
大语言模型中RLHF的秘密,PPO算法的详解,相关代码已开源!!#科研 #论文 #ai #计算机 #NLP
腾讯联合新国立提出了一种one-shot文本生成视频的方法!效果超过CogVideo!代码和模型即将开源!
微软学者整理了100页图文多模态预训练综述,涉及各种多模态模型和应用,并且附带视频教程,需要的同学快来领取!
字节提出新的多边形战士,通用基础模型X-FM,将视觉,文本和多模态的训练做到了一个阶段,在多项下游任务表现不错!
基于Diffusion模型的DiffFace来了,交换效果超过之前的经典模型!代码和模型即将开源!
【NeurIPS 2023】华为诺亚提出新的YOLO检测模型:Gold-YOLO,达到YOLO系列新SOTA!!
谷歌提出利用语言大模型重写caption来提升图文多模态预训练模型,简单技巧即可提升CLIP多项zeroshot 性能!代码已开源!
鹏城实验室学者提出了一种新的视频语言多模态预训练模型SOTA-VLP,融合了空间时序建模方法,捕获细粒度特征,多项任务取得SOTA!
多模态还能助力NLP任务!上交学者提出TILT方法,利用多模态检索图像增强文本表征,多项NLP下游任务达到SOTA!
三个超变态的AI网站,能提前让你过上退休生活!!!
NEURA 与 NVIDIA 携手重新定义机器人技术的未来!
MIT联合清华提出基于知识的视觉推理多模态模型IPVR,模拟人类视觉推理,取得较好效果!
支持语音,图像,文本,音乐等模态输入!上海AI Lab提出任意多模态语言模型AnyGPT!
当医学图像遇上SAM,会产生什么样的火花,基于SAM的医学图像分割finetune框架来了,附代码!
阿里多模态团队基于OFA多模态预训练模型,提出最强中文OCR模型,效果惊艳!
亚马逊联合牛津提出了用于多模态理解的三元对比学习TCL,在CLIP的基础上提升了多模态模型的跨模态理解能力!
CVPR2023 VindLU:有效的视频和语言预训练方案,在多项视频理解任务上取得SOTA水平!
AI模型的大一统!微软多模态组提出了多模态领域杀疯了的多边形战士BEIT V3!多项视觉,多模态任务达到SOTA!
Adobe提出超越Stable Diffusion的GAN网络,10亿参数量模型速度吊打Stable Diffusion!目前已被CVPR2023接收!
来自真实用户的百万级文本视频数据!Sora时代的视频生成数据集VidProM开源了!
Human Action Recognition综述来了,近10年160篇论文,涉及RNN和CNN类型的方法,需要的同学快来领取!
国科大联合华为提出金字塔结构的特征MIM预训练方法,性能大幅超越MAE等视觉掩码自监督方法!
超过IP-Adapter!中科大提出超保真ID个性化AIGC新方法Infinite-ID!
中科大提出All-in-One多模态预训练方法,利用统一的多模态互信息提升多模态性能,下游检测分割性能超过BEIT V3!
北大联合南洋理工提出了一种简单有效的开放词汇实例分割框架,分割效果惊艳!
ChatSpot:更精确的带参考坐标多模态指令微调,目前已开源!#计算机 #论文 #nlp #ai #chatgpt
字节联合爱丁堡大学学者提出新的多模态预训练方法MUG,结合MAE和Caption生成