微软联合北大提出了首个用于音视频联合生成的多模态扩散模型MM-Difussion！可以给定视频生成音频或给定音频生成视频！ - 视频下载 Video Downloader

微软联合北大提出了首个用于音视频联合生成的多模态扩散模型MM-Difussion！可以给定视频生成音频或给定音频生成视频！

发布人

-

打开封面下载高清视频观看高清视频视频下载器

仅需0.5M！可集成任意扩散模型！字节提出灵活分辨率适配器ResAdapter！

付费 VS 免费，AI工具的平替款你都知道吗？

Gen-3 Alpha Turbo 图像转视频可以使用啦，生成速度提高了 7 倍！

斯坦福大学AI博士，揭秘最新多模态AI - 杨俊睿 Jackie，MAUI

Stability AI又放大招了！基于SD3蒸馏更快的文生图模型SD3-Turbo！

AI视频生成工具EasyAnimate-v3：文字生成视频&图片生成视频附一键整合包，替代可灵的AI视频生成工具

解锁CLIP长文本能力！即插即用替换CLIP！上海AI Lab提出Long-CLIP！

别等Sora了，Runway 猛猛上新，逼真效果谁能不爱

智谱AI视频生成工具“清影”官方作品演示，轻松生成高质量流畅画面

SAM+扩散模型让图片中的对象动起来！腾讯提出RegionMaker！

无需专业技能，Luma Dream Machine让你成为视频创作大师！

谷歌基于多模态预训练模型，提出了一种开放词汇的时序动作检测模型，可以检测视频中任意动作！性能远超之前方法！

【NeurIPS 2023】华为诺亚提出新的YOLO检测模型:Gold-YOLO,达到YOLO系列新SOTA!!

「AI评测」国产视频生成模型？清影！

微软提出了KOSMOS-G，利用MLLM来指导通用视觉-语言输入生成图像！！

Adobe研究院提出了用于视频和音频多模态数据的视听对比学习的自监督策略，在多项视频和音频数据集上达到新SOTA！

InternVL 多模态模型语音功能小剧透！

支持语音，图像，文本，音乐等模态输入！上海AI Lab提出任意多模态语言模型AnyGPT！

多模态还能助力NLP任务！上交学者提出TILT方法，利用多模态检索图像增强文本表征，多项NLP下游任务达到SOTA！

最强视觉backbone网络ConvNext v2来了！Meta AI融合了视觉掩码自监督框架，提出新的新的SOTA算法！目前代码和模型已开源！

微软学者整理了100页图文多模态预训练综述，涉及各种多模态模型和应用，并且附带视频教程，需要的同学快来领取！

［CVPR 2024］Pose引导的舞蹈视频生成新方法！南洋理工联合微软提出DISCO！

解锁CLIP长文本能力！即插即用替换CLIP！上海AI Lab提出Long-CLIP！

原来AI真的能生成高颜值美女，快来试试多模态生成模型吧！

谷歌基于掩码Transformer提出新的以文生图SOTA模型Muse！生成效果和效率大幅超过Difussion模型和自回归模型！

AI视频生成！NC-SDEdit ：提升视频合成质量和内容一致性新方案 | ECCV2024

阿里多模态团队基于OFA多模态预训练模型，提出最强中文OCR模型，效果惊艳！

来看看网友用Midjourney v6.1生成的图片做成视频是什么样的吧

幻方发布超强多模态LLM DeepSeek-VL！支持代码，文档OCR等！

【脑客中国·科研】第155位讲者 | 王杰：多模态磁共振成像与脑科学

字节联合爱丁堡大学学者提出新的多模态预训练方法MUG，结合MAE和Caption生成

SAM+CLIP，会擦出什么样的火花！模型组合大法霸榜图像分割Zero-Shot!

1分钟内快速完成学术润色，全网最简易论文润色教程来啦！

多模态大模型 MiniCPM-V 2.6「实时视频理解」首次上端！

Mamba再下一城！上海AI Lab提出视频领域新SOTA VideoMamba！

可灵Ai视频生成

继EMO之后又火了！阿里提出Image-to-Video新框架AtomoVideo！

北大联合南洋理工提出了一种简单有效的开放词汇实例分割框架，分割效果惊艳！

清华智源基于LLM提出更全面精细的多模态图文数据集CAPSFUS-120M！

鹏城实验室学者提出了一种新的视频语言多模态预训练模型SOTA-VLP，融合了空间时序建模方法，捕获细粒度特征，多项任务取得SOTA！