V
主页
阿里提出了一种联合多个语义分割数据集进行训练的语义分割方法LMSeg,相比单一数据集训练提升明显!
发布人
-
打开封面
下载高清视频
观看高清视频
视频下载器
阿里发布最强中文图文多模态模型:Chinese CLIP,基于两亿中文图文多模态数据!
北大联合华为诺亚提出了一种增强对比学习的新方法ArCL,通过学习更鲁棒的特征,将MOCO等对比学习方法提升1-2个百分点!目前已被ICLR 2023接收!
里斯本大学学者提出检索增强的Image Captioning 方法,可以在预训练图文编码器的基础上进一步提升Caption性能!
Meta AI提出新的视觉Transformer结构,相同精度内存减少15倍!代码和模型目前已开源!
【李沐】火到没朋友的《动手学深度学习》经典书籍终于有视频了!原作者带你啃透深度学习专业知识!—神经网络、物体检测、语义分割、计算机视觉
中山大学学者提出新的视觉Transfomer结构DilateFormer,减少70%计算量的同时性能更优!目前已开源!
微软提出简单的Open vocabulary检测和分割框架,能够统一处理两种任务,性能超过GLIP等模型!目前已开源!
当医学图像遇上SAM,会产生什么样的火花,基于SAM的医学图像分割finetune框架来了,附代码!
深度学习CVPR2024 | 用于语义分割的频率自适应扩张卷积
发文首选:KAN用于图像处理!效果炸裂好,最新9种创新思路
2024最热门的计算机视觉实战-【图像分割+语义分割】3小时掌握!原理+实战+论文,新手小白首选教程!人工智能/计算机视觉/深度学习/AI/图像处理/机器学习
字节提出新的多边形战士,通用基础模型X-FM,将视觉,文本和多模态的训练做到了一个阶段,在多项下游任务表现不错!
华为诺亚实验室提出NLIP多模态模型:仅用2900万数据性能超过BLIP和CLIP等亿级数据训练的多模态模型!
微软总结了视觉Transformer的分类性能,从参数量,计算量等方面对它们进了公平的对比!
北大联合南洋理工提出了一种简单有效的开放词汇实例分割框架,分割效果惊艳!
鹏城实验室开放了45页多模态预训练大模型综述!总结了近5年多模态预训练相关的算法和数据!多模态预训练学习包!
亚马逊学者提出Zero-Shot计数新方法!利用预训练的生成模型生成类别原型特征,然后进行patch最邻近搜索,效果远超之前方法!
深度学习 | MSAF多尺度注意力特征融合模块 | YOLO可替换连接层 | 提供了2D和3D版本,适用于语义分割,实例分割,目标检测,暗光增强,图像增强等任务
基于Transformer的医学图像分析综述来了,包含200多篇论文,涉及分类,分割,定位以及captioning等任务!
字节联合爱丁堡大学提出新的视觉预训练方法MUG,取得新的SOTA!模型和代码均已开源,快来领取!
Adobe提出基于预训练图像Diffusion模型的视频编辑器,无需训练即可完成视频编辑功能,效果超过Tune-a-Video等方法!
文本引导的虚拟试衣来了,多模态在时尚领域的又一杀器!一键更换模特服装!目前代码模型已开源!
解锁CLIP长文本能力!即插即用替换CLIP!上海AI Lab提出Long-CLIP!
人工智能在医疗图像领域实现应用落地的算法有哪些?未来发展如何?听完计算机大佬讲课后直接茅塞顿开!——目标检测、图像生成、语义分割
北理北航提出SPG解决点云语义分割类别不平衡问题(今日Arxiv 8月21日)2024年8月21日Arxiv cs.CV发文量约113余篇,减论Agent推荐
NVIDIA放大招了!在生成模型基础上提出Action-GPT:利用GPT实现任意文本生成动作!效果绝了!
最全的30页Loss函数总结综述来了,包含30多种损失函数,涉及分类,回归,Ranking等!
字节联合浙大提出新的视频语言预训练模型TemPVL,能够显著提升下游多模态视频理解任务性能!
全新的全卷积视觉骨干网FCViT,超过ConvNext,目前已开源!
腾讯联合浙大提出新的视觉Transformer网络CrossFormer,参数量更少同时性能超过Swin!目前已开源!
华五毕业,ai工程师,重度焦虑抑郁,每天都有濒死感,谈谈我的职场经历。不是我不想努力
阿里达摩院提出新的视频文本预训练框架,通过预训练,其在视频下游任务取得多项SOTA!
阿里提出用于视频文本理解的高效多模态模型MuLTI,通过设计了Multiway Sampler和多项选择建模任务 在多项视频理解任务上达到新SOTA!
腾讯结合了MAE和CLIP,提出了新的在语言语义上进行掩码重建的预训练框架RILS,超过多种视觉预训练和多模态预训练方案!
AI 新的图片数字人项目(loopy)
FAIR新作,Meta AI提出高效的视觉-语言预训练算法CiT,训练速度提高一个数量级!代码已开源!
微软亚研提出了小模型蒸馏方法TinyMIM!MIM预训练小模型性能提升4个百分点!目前模型和代码均已开源!
【AI论文阅读】SAM2:将SAM扩展到视频领域
Stable Diffusion中"CLIP 终止层数"原理与使用的通俗解析
还得看吴恩达!一口气讲透CNN、RNN、GAN、LSTM、YOLO、transformer等六大深度学习神经网路算法!真的不要太爽~(AI人工智能丨机器学习)