阿里提出了一种联合多个语义分割数据集进行训练的语义分割方法LMSeg，相比单一数据集训练提升明显！ - 视频下载 Video Downloader

阿里提出了一种联合多个语义分割数据集进行训练的语义分割方法LMSeg，相比单一数据集训练提升明显！

发布人

-

打开封面下载高清视频观看高清视频视频下载器

阿里发布最强中文图文多模态模型：Chinese CLIP，基于两亿中文图文多模态数据！

北大联合华为诺亚提出了一种增强对比学习的新方法ArCL，通过学习更鲁棒的特征，将MOCO等对比学习方法提升1-2个百分点！目前已被ICLR 2023接收！

里斯本大学学者提出检索增强的Image Captioning 方法，可以在预训练图文编码器的基础上进一步提升Caption性能！

Meta AI提出新的视觉Transformer结构，相同精度内存减少15倍！代码和模型目前已开源！

【李沐】火到没朋友的《动手学深度学习》经典书籍终于有视频了！原作者带你啃透深度学习专业知识！—神经网络、物体检测、语义分割、计算机视觉

中山大学学者提出新的视觉Transfomer结构DilateFormer，减少70%计算量的同时性能更优！目前已开源！

微软提出简单的Open vocabulary检测和分割框架，能够统一处理两种任务，性能超过GLIP等模型！目前已开源！

当医学图像遇上SAM，会产生什么样的火花，基于SAM的医学图像分割finetune框架来了，附代码！

深度学习CVPR2024 | 用于语义分割的频率自适应扩张卷积

发文首选：KAN用于图像处理！效果炸裂好，最新9种创新思路

2024最热门的计算机视觉实战-【图像分割+语义分割】3小时掌握！原理+实战+论文，新手小白首选教程！人工智能/计算机视觉/深度学习/AI/图像处理/机器学习

字节提出新的多边形战士，通用基础模型X-FM，将视觉，文本和多模态的训练做到了一个阶段，在多项下游任务表现不错！

华为诺亚实验室提出NLIP多模态模型：仅用2900万数据性能超过BLIP和CLIP等亿级数据训练的多模态模型！

微软总结了视觉Transformer的分类性能，从参数量，计算量等方面对它们进了公平的对比！

北大联合南洋理工提出了一种简单有效的开放词汇实例分割框架，分割效果惊艳！

鹏城实验室开放了45页多模态预训练大模型综述！总结了近5年多模态预训练相关的算法和数据！多模态预训练学习包！

亚马逊学者提出Zero-Shot计数新方法！利用预训练的生成模型生成类别原型特征，然后进行patch最邻近搜索，效果远超之前方法！

深度学习 | MSAF多尺度注意力特征融合模块 | YOLO可替换连接层 | 提供了2D和3D版本，适用于语义分割，实例分割，目标检测，暗光增强，图像增强等任务

基于Transformer的医学图像分析综述来了，包含200多篇论文，涉及分类，分割，定位以及captioning等任务！

字节联合爱丁堡大学提出新的视觉预训练方法MUG，取得新的SOTA！模型和代码均已开源，快来领取！

Adobe提出基于预训练图像Diffusion模型的视频编辑器，无需训练即可完成视频编辑功能，效果超过Tune-a-Video等方法！

文本引导的虚拟试衣来了，多模态在时尚领域的又一杀器！一键更换模特服装！目前代码模型已开源！

解锁CLIP长文本能力！即插即用替换CLIP！上海AI Lab提出Long-CLIP！

人工智能在医疗图像领域实现应用落地的算法有哪些？未来发展如何？听完计算机大佬讲课后直接茅塞顿开！——目标检测、图像生成、语义分割

北理北航提出SPG解决点云语义分割类别不平衡问题（今日Arxiv 8月21日）2024年8月21日Arxiv cs.CV发文量约113余篇，减论Agent推荐

NVIDIA放大招了！在生成模型基础上提出Action-GPT：利用GPT实现任意文本生成动作！效果绝了！

最全的30页Loss函数总结综述来了，包含30多种损失函数，涉及分类，回归，Ranking等！

字节联合浙大提出新的视频语言预训练模型TemPVL，能够显著提升下游多模态视频理解任务性能！

全新的全卷积视觉骨干网FCViT，超过ConvNext，目前已开源！

腾讯联合浙大提出新的视觉Transformer网络CrossFormer，参数量更少同时性能超过Swin！目前已开源！

华五毕业，ai工程师，重度焦虑抑郁，每天都有濒死感，谈谈我的职场经历。不是我不想努力

阿里达摩院提出新的视频文本预训练框架，通过预训练，其在视频下游任务取得多项SOTA!

阿里提出用于视频文本理解的高效多模态模型MuLTI，通过设计了Multiway Sampler和多项选择建模任务在多项视频理解任务上达到新SOTA！

腾讯结合了MAE和CLIP，提出了新的在语言语义上进行掩码重建的预训练框架RILS，超过多种视觉预训练和多模态预训练方案！

AI 新的图片数字人项目(loopy)

FAIR新作，Meta AI提出高效的视觉-语言预训练算法CiT，训练速度提高一个数量级！代码已开源！

微软亚研提出了小模型蒸馏方法TinyMIM！MIM预训练小模型性能提升4个百分点！目前模型和代码均已开源！

【AI论文阅读】SAM2:将SAM扩展到视频领域

Stable Diffusion中"CLIP 终止层数"原理与使用的通俗解析

还得看吴恩达！一口气讲透CNN、RNN、GAN、LSTM、YOLO、transformer等六大深度学习神经网路算法！真的不要太爽~（AI人工智能丨机器学习）