阿里联合清华提出了用于医学VQA的新方法RAMM，利用检索增强的策略在医学VQA数据集上取得新SOTA！数据集，代码即将开源！ - 视频下载 Video Downloader

阿里联合清华提出了用于医学VQA的新方法RAMM，利用检索增强的策略在医学VQA数据集上取得新SOTA！数据集，代码即将开源！

发布人

-

打开封面下载高清视频观看高清视频视频下载器

开源AI项目爆火！大叔秒变少女，GitHub狂揽7.9K星 | 零度解说

阿里发布最强中文图文多模态模型：Chinese CLIP，基于两亿中文图文多模态数据！

微软亚研提出了小模型蒸馏方法TinyMIM！MIM预训练小模型性能提升4个百分点！目前模型和代码均已开源！

Adobe研究院提出了用于视频和音频多模态数据的视听对比学习的自监督策略，在多项视频和音频数据集上达到新SOTA！

几秒钟完成图像定制化生成！清华联合腾讯提出无需微调的AIGC新框架！

幻方发布超强多模态LLM DeepSeek-VL！支持代码，文档OCR等！

继EMO之后又火了！阿里提出Image-to-Video新框架AtomoVideo！

解锁CLIP长文本能力！即插即用替换CLIP！上海AI Lab提出Long-CLIP！

AI视频换脸真的快变态死了！！！

解锁CLIP长文本能力！即插即用替换CLIP！上海AI Lab提出Long-CLIP！

Stability AI又放大招了！基于SD3蒸馏更快的文生图模型SD3-Turbo！

阿里提出用于视频文本理解的高效多模态模型MuLTI，通过设计了Multiway Sampler和多项选择建模任务在多项视频理解任务上达到新SOTA！

超过IP-Adapter！中科大提出超保真ID个性化AIGC新方法Infinite-ID！

阿里达摩院提出新的视频文本预训练框架，通过预训练，其在视频下游任务取得多项SOTA!

UCSB学者提出了一种利用知识增强来对现有大型语言模型进行解释的新方法，为语言模型提供了人类可理解的解释！

腾讯联合新国立提出了一种one-shot文本生成视频的方法！效果超过CogVideo!代码和模型即将开源！

微软联合北大提出了首个用于音视频联合生成的多模态扩散模型MM-Difussion！可以给定视频生成音频或给定音频生成视频！

【EMNLP2023】清华联合阿里提出了利用大型语言模型辅助多模态OOD检测的新方法！

字节联合爱丁堡大学提出新的视觉预训练方法MUG，取得新的SOTA！模型和代码均已开源，快来领取！

基于Diffusion模型的DiffFace来了，交换效果超过之前的经典模型！代码和模型即将开源！

北大联合南洋理工提出了一种简单有效的开放词汇实例分割框架，分割效果惊艳！

39页视觉问答（VQA）和视觉推理综述论文来了！涉及近30个数据集，50多种经典方法，VQA终于学会了！

DeepMind联合VGG组提出基于Mask的多模态Transformer架构Zorro，联合视频音频输入，在视频分类数据集上取得SOTA性能！

阿里多模态团队基于OFA多模态预训练模型，提出最强中文OCR模型，效果惊艳！

亚马逊联合牛津提出了用于多模态理解的三元对比学习TCL，在CLIP的基础上提升了多模态模型的跨模态理解能力！

黄仁勋下一波AI是物理人工智能，它需要......来实现！人工智能技术

当AI进入医学，会有多少人失业？LLaVA-Med为何性能这么好？

上交学者提出了一种利用Diffusion模型生合成语义分割数据集，并基于此训练了一个开放词汇分割的模型，效果惊艳！

SAM+扩散模型让图片中的对象动起来！腾讯提出RegionMaker！

CVPR2023发表，LayoutDiffusion：用于Layout控制图像生成的新方法，比之前方法取得了更好的生成质量和更多的可控制性！

AI生成剧烈运动视频，大翻车引起大佬热议，到底是什么原因造成的？

OGMP：Oracle引导的多模式策略，实现灵活多变的机器人控制

原来AI真的能生成高颜值美女，快来试试多模态生成模型吧！

NEURA 与 NVIDIA 携手重新定义机器人技术的未来！

26集全！B站目前唯一能将【量化交易】讲清楚的教程！用AI从零开始打造你的交易机器人！大数据量化交易/机器学习/Python金融分析

亚马逊学者提出Zero-Shot计数新方法！利用预训练的生成模型生成类别原型特征，然后进行patch最邻近搜索，效果远超之前方法！

见识一下ChatGPT-4o强大的识图能力！细节不但拉满，还能对图片进行分析并打分！

这绝对是2024年【人工智能入门】天花板教程！清华大佬强力打造，68集带你吃透AI基础知识点！

基于深度学习的视频文本的跨模态检索30页综述来了，包含近7年150篇相关论文！

将机器人接入大模型，使其听懂“人话”，自主决策