V
主页
阿里多模态团队基于OFA多模态预训练模型,提出最强中文OCR模型,效果惊艳!
发布人
-
打开封面
下载高清视频
观看高清视频
视频下载器
文本引导的虚拟试衣来了,多模态在时尚领域的又一杀器!一键更换模特服装!目前代码模型已开源!
Kaiming He团队在多模态领域提出的FLIP,结合MAE Masking Image 策略与CLIP,保证精度的同时 大幅提升训练效率!
AI模型的大一统!微软多模态组提出了多模态领域杀疯了的多边形战士BEIT V3!多项视觉,多模态任务达到SOTA!
【多模态+大模型+知识图谱】2024完整版:这绝对是B站最全的教程,论文创新点终于解决了!——人工智能/深度学习/aigc/计算机视觉
Mamba卷到多模态了!基于Mamba的多模态大语言模型VL-Mamba来了!
CVPR 2023,EVA升级,智源开源更强的视觉预训练模型EVA-2,Vit-L Imagenet精度达到90+!
亚马逊学者提出Zero-Shot计数新方法!利用预训练的生成模型生成类别原型特征,然后进行patch最邻近搜索,效果远超之前方法!
上交学者提出了一种利用Diffusion模型生合成语义分割数据集,并基于此训练了一个开放词汇分割的模型,效果惊艳!
最强视觉backbone网络ConvNext v2来了!Meta AI融合了视觉掩码自监督框架,提出新的新的SOTA算法!目前代码和模型已开源!
微软亚研提出了小模型蒸馏方法TinyMIM!MIM预训练小模型性能提升4个百分点!目前模型和代码均已开源!
【多模态+知识图谱】半天居然就跟着博士从零构建知识图谱!基于知识图谱的六大项目实战!医药问答系统、知识抽取、推荐系统、Neo4j数据库、大模型
谷歌基于多模态预训练模型,提出了一种开放词汇的时序动作检测模型,可以检测视频中任意动作!性能远超之前方法!
NVIDIA放大招了!在生成模型基础上提出Action-GPT:利用GPT实现任意文本生成动作!效果绝了!
CLIP可以直接拿来做文本检测了!腾讯优图提出TCM结构,文本检测能力在多个数据集上均有较大提升!目前以被CVPR2023接收!
强烈推荐!吴恩达大模型微调+langchain+RAG+Mistral系列教程!不愧是圈内公认的大佬!多模态大模型
【EMNLP2023】清华联合阿里提出了利用大型语言模型辅助多模态OOD检测的新方法!
多模态大模型 MiniCPM-V 2.6「实时视频理解」首次上端!
Transformer能否像MobileNets一样快?加州伯克利学者提出Efficient former V2,速度和精度超过之前轻量模型!
华为诺亚实验室提出NLIP多模态模型:仅用2900万数据性能超过BLIP和CLIP等亿级数据训练的多模态模型!
Mamba再下一城!上海AI Lab提出视频领域新SOTA VideoMamba!
字节提出新的多边形战士,通用基础模型X-FM,将视觉,文本和多模态的训练做到了一个阶段,在多项下游任务表现不错!
幻方发布超强多模态LLM DeepSeek-VL!支持代码,文档OCR等!
鹏城实验室学者提出了一种新的视频语言多模态预训练模型SOTA-VLP,融合了空间时序建模方法,捕获细粒度特征,多项任务取得SOTA!
2024最新!这可能是目前最系统的【AI大模型】教程了,一口气带你学完LLM主流开源大模型,看完这一下全跑通了!!!(文心一言/百度千帆/讯飞星火大模型)
阿里达摩院提出新的视频文本预训练框架,通过预训练,其在视频下游任务取得多项SOTA!
腾讯结合了MAE和CLIP,提出了新的在语言语义上进行掩码重建的预训练框架RILS,超过多种视觉预训练和多模态预训练方案!
京东提出全球首个面向遥感任务设计的亿级视觉Transformer大模型,基于百万级遥感数据集进行预训练,下游检测,分割等任务性能SOTA,目前模型和代码已开源!
腾讯提出一种新的CLIP模型,利用更加soft的跨模态对齐策略,提升CLIP在各项任务上的性能!
华为诺亚提出视觉文档理解多模态预训练模型WuKong-Reader,在百万级文档数据上进行了预训练,多项下游任务效果SOTA!
全新的全卷积视觉骨干网FCViT,超过ConvNext,目前已开源!
亚马逊联合牛津提出了用于多模态理解的三元对比学习TCL,在CLIP的基础上提升了多模态模型的跨模态理解能力!
阿里提出用于视频文本理解的高效多模态模型MuLTI,通过设计了Multiway Sampler和多项选择建模任务 在多项视频理解任务上达到新SOTA!
一小时深度解析【Sora分析】视频生成模型,如何做到文本生成视频?详解背后的技术原理与应用案例!!!
【全256集】多模态方向是不是同时得学nlp和cv?2024(最新)多模态大模型教程VIT、Clip、SAM等模型实战,由我精讲多模态大模型原理!
中山大学学者提出新的视觉Transfomer结构DilateFormer,减少70%计算量的同时性能更优!目前已开源!
当AI进入医学,会有多少人失业?LLaVA-Med为何性能这么好?
几秒钟完成图像定制化生成!清华联合腾讯提出无需微调的AIGC新框架!
基于Diffusion模型的DiffFace来了,交换效果超过之前的经典模型!代码和模型即将开源!
统治扩散模型的U-Net结构被取代了!谷歌提出基于Transformer的可扩展扩散模型DiT!计算效率和生成效果均超越ADM和LDM!代码刚刚开源!
字节联合浙大提出新的视频语言预训练模型TemPVL,能够显著提升下游多模态视频理解任务性能!