伊朗科技大学学者提出用于医学图像识别的骨干网络MedViT，融合了CNN和Transformer的结构，在多项医学图像任务取得不错效果！ - 视频下载 Video Downloader

伊朗科技大学学者提出用于医学图像识别的骨干网络MedViT，融合了CNN和Transformer的结构，在多项医学图像任务取得不错效果！

发布人

-

打开封面下载高清视频观看高清视频视频下载器

鹏城实验室学者提出了一种新的视频语言多模态预训练模型SOTA-VLP，融合了空间时序建模方法，捕获细粒度特征，多项任务取得SOTA！

【Transformer+UNet】医学图像分割创新最容易复现的3个通用模块—附论文及代码

ai聊天无敏感词无限制畅聊，支持自定义创建及语音，支持安卓、iOS端！

视觉Transformer喜提金字塔结构：多阶段Token聚合，复杂度超低！ CV任务变得更简单了！

最强视觉backbone网络ConvNext v2来了！Meta AI融合了视觉掩码自监督框架，提出新的新的SOTA算法！目前代码和模型已开源！

超好用的可视化工具，“透视”Transformer

卷不动transformer改进？第三代神经网络-脉冲神经网络了解一下，适配时序、图像各任务，能耗降低54%

中山大学学者提出新的视觉Transfomer结构DilateFormer，减少70%计算量的同时性能更优！目前已开源！

AI可解释性综述来了，神经网络的黑盒性质经常被许多学者Diss，而可解释性方法让AI不在是完全黑盒！

微软总结了视觉Transformer的分类性能，从参数量，计算量等方面对它们进了公平的对比！

当医学图像遇上SAM，会产生什么样的火花，基于SAM的医学图像分割finetune框架来了，附代码！

【即插即用】时间序列+注意力模块的创新，让预测误差狂降36%，模型性能和准确性飙升！

UIUC学者发现冻结LLM中的Transformer是有效的视觉编码器层！多项视觉任务性能均有提升！

谷歌学者提出了简单的DPN策略，在ViT 的Patch Embedding层前后各加一个LN层就能提升ViT性能！

[NeurIPS 2023] 通过Adapter重组实现用于大型视觉Transformer的LORA！！

GNN+Transformer再突破：准确率提升79.49%，内存消耗减少39倍！来看34种创新思路

上交学者提出了一种利用Diffusion模型生合成语义分割数据集，并基于此训练了一个开放词汇分割的模型，效果惊艳！

9位Science院士联名发表人工智能发展长篇综述，涵盖了智能计算的基础理论，智能计算融合的重要应用和挑战！

手把手带你完成【猫狗识别实战】这是我见过最适合新手学习的深度学习实战教程！基于TensorFlow+CNN实现猫狗识别_AI/人工智能/深度学习/神经网络

CV研究生必看！基于Transformer的医学图像分割实战，论文解读+源码复现，迪哥带你轻松搞定论文创新点！

用Excel理解神经网络！AI by Hand！大佬手搓Transformer！——神经网络/Transformer/深度学习/机器学习

统治扩散模型的U-Net结构被取代了！谷歌提出基于Transformer的可扩展扩散模型DiT！计算效率和生成效果均超越ADM和LDM！代码刚刚开源！

微软提出了一种图像分割，视觉语言大一统模型X-Decoder！open-vocabulary语义分割效果惊艳！多项下游任务性能表现SOTA，目前代码和模型已开源

如何简单、通俗的理解Transformer？

ECCV'24开源 | LocoTrack：塑造SLAM新纪元！6倍加速！跟踪一切最新SOTA！

全新的全卷积视觉骨干网FCViT，超过ConvNext，目前已开源！

我敢说学习【NLP自然语言处理】只要看这个就够了，NLP中最重要的核心内容，不愧是大家一致仍可的教程-人工智能/机器学习/深度学习

很适合新手用来学习的Transformer工具！超想分享给大家！ -神经网络/Transformer/AI by Hand/神经网络入门

时间序列预测 | Autoformer 简介

什么是卷积？强推！这绝对是全网最通俗易懂的【卷积神经网络教程】！草履虫听了都点头！人工智能、深度学习、机器学习

CVPR2023 基于掩码的视觉和语言Transformer，能够同时完成以文生图和Image Captioning两种多模态生成任务，且效果非常不错！

文本引导的虚拟试衣来了，多模态在时尚领域的又一杀器！一键更换模特服装！目前代码模型已开源！

苹果公司学者提出最快的ViT结构FastViT，实现了效率和精度的trade-off。比Efficient 快5倍，比ConvNext快2倍！

亚马逊学者提出Zero-Shot计数新方法！利用预训练的生成模型生成类别原型特征，然后进行patch最邻近搜索，效果远超之前方法！

想要通俗易懂地理解Transformer？这本大模型黑书是你的不二选择！

阿里达摩院提出了新的多边形战士模型mPLUG-2，在各种视觉，文本以及多模态任务上均取得不错的性能，超过BEIT V3和EVA！

深度学习380页详细版综述教程来了！包含CNN，Transformer，GNN，GAN，Difussion Model等热门网络！

世界首例GPT植入活人大脑，碾压马斯克脑机接口！

今天给大家推荐一本蛇尾书，大模型时代的启动手册！

多模态Chat来了，Salesforce Research学者提出BLIP-2，利用多模态预训练和语言大模型能力在相关任务上取得SOTA，也可以实现多模态对话！