Adobe研究院提出了用于视频和音频多模态数据的视听对比学习的自监督策略，在多项视频和音频数据集上达到新SOTA！ - 视频下载 Video Downloader

Adobe研究院提出了用于视频和音频多模态数据的视听对比学习的自监督策略，在多项视频和音频数据集上达到新SOTA！

发布人

-

打开封面下载高清视频观看高清视频视频下载器

鹏城实验室学者提出了一种新的视频语言多模态预训练模型SOTA-VLP，融合了空间时序建模方法，捕获细粒度特征，多项任务取得SOTA！

Kaiming He团队在多模态领域提出的FLIP，结合MAE Masking Image 策略与CLIP，保证精度的同时大幅提升训练效率！

阿里发布最强中文图文多模态模型：Chinese CLIP，基于两亿中文图文多模态数据！

阿里提出用于视频文本理解的高效多模态模型MuLTI，通过设计了Multiway Sampler和多项选择建模任务在多项视频理解任务上达到新SOTA！

InternVL 多模态模型语音功能小剧透！

仅需0.5M！可集成任意扩散模型！字节提出灵活分辨率适配器ResAdapter！

【多模态+大模型+知识图谱】2024最好创新的研究方向！绝对是B站最全的教程，论文创新点终于解决了！——人工智能|深度学习|aigc|计算机视觉

幻方发布超强多模态LLM DeepSeek-VL！支持代码，文档OCR等！

斯坦福大学AI博士，揭秘最新多模态AI - 杨俊睿 Jackie，MAUI

图像+音频驱动的口播视频生成！谷歌提出VLOGGER！

当AI进入医学，会有多少人失业？LLaVA-Med为何性能这么好？

Sora展示会 Tim Fu AI视频创作，人工智能大模型多模态

国内智驾老兵百度开源BEVWorld：通过统一BEV潜在空间实现自动驾驶的多模态世界模型

最强视觉backbone网络ConvNext v2来了！Meta AI融合了视觉掩码自监督框架，提出新的新的SOTA算法！目前代码和模型已开源！

亚马逊联合牛津提出了用于多模态理解的三元对比学习TCL，在CLIP的基础上提升了多模态模型的跨模态理解能力！

上交学者提出了一种利用Diffusion模型生合成语义分割数据集，并基于此训练了一个开放词汇分割的模型，效果惊艳！

一小时深度解析【Sora分析】视频生成模型，如何做到文本生成视频？详解背后的技术原理与应用案例！！！

【多模态+知识图谱】半天居然就跟着博士从零构建知识图谱！基于知识图谱的六大项目实战！医药问答系统、知识抽取、推荐系统、Neo4j数据库、大模型

解锁CLIP长文本能力！即插即用替换CLIP！上海AI Lab提出Long-CLIP！

字节联合南开大学提出了用于视频动作识别的自监督框架CMAE-V，融合了MAE和对比学习，在视频动作识别任务取得SOTA!

华为诺亚提出视觉文档理解多模态预训练模型WuKong-Reader，在百万级文档数据上进行了预训练，多项下游任务效果SOTA！

AI模型的大一统！微软多模态组提出了多模态领域杀疯了的多边形战士BEIT V3!多项视觉，多模态任务达到SOTA!

强推！这可能是B站最全的（Python＋机器学习＋深度学习）系列课程了，堪称人工智能系列课程的巅峰之作！-人工智能/深度学习/机器学习

NVIDIA放大招了！在生成模型基础上提出Action-GPT：利用GPT实现任意文本生成动作！效果绝了！

研一研二必看！不愧是2024最好出论文的两个研究方向：Diffusion扩散模型+对比学习，源码复现+模型精讲+论文解读，迪哥带你轻松搞定论文创新点！

见识一下ChatGPT-4o强大的识图能力！细节不但拉满，还能对图片进行分析并打分！

Meta AI助手视觉识别测试（Quest3 V68）

【NeurIPS 2023】华为诺亚提出新的YOLO检测模型:Gold-YOLO,达到YOLO系列新SOTA!!

谷歌基于多模态预训练模型，提出了一种开放词汇的时序动作检测模型，可以检测视频中任意动作！性能远超之前方法！

B站强推！2024公认最通俗易懂的【AI大模型】教程，32集付费课程（附资料）LLM大模型_RAG_大模型微调_多模态

ChatSpot:更精确的带参考坐标多模态指令微调，目前已开源！#计算机 #论文 #nlp #ai #chatgpt

CVPR 2023，EVA升级，智源开源更强的视觉预训练模型EVA-2，Vit-L Imagenet精度达到90+！

继EMO之后又火了！阿里提出Image-to-Video新框架AtomoVideo！

Adobe提出基于预训练图像Diffusion模型的视频编辑器，无需训练即可完成视频编辑功能，效果超过Tune-a-Video等方法！

Diffusion Model 可以用来进行图像数据增强了！卡内基梅隆大学学者提出DA-Fusion方法，提升了数据增强产生多样性高级语义样本的能力！

视频及音乐生成 AI 大模型来啦，快进来看看AI 歌手的表演吧！

多模态高清解码原理

腾讯优图提出啄木鸟（Woodpecker）：无需训练即可矫正多模态大语言模型的幻觉问题！

微软多模态团队提出了新的语言增强多模态预训练大模型，可以类似BLIP2进行多模态chat，效果很惊艳！

Python自动化脚本，Python训练AI自动玩王者荣耀，简直不要太秀！！！