V
主页
大规模语言模型在多模态音乐理解与生成中的应用
发布人
【加群】 一起来刷arxiv,请加vx: pwbot02(请备注:b站arxiv) 【彩蛋】 可以试试/ask + 你的提问和本篇论文进行交流 【论文标题】 M$^{2}$UGen: Multi-modal Music Understanding and Generation with the Power of Large Language Models 【论文简述】 本论文主要介绍了一个名为M$^2$UGen的多模态音乐理解与生成框架。该框架利用了大规模语言模型(LLM)的强大推理能力,能够理解文本、语音、图像和视频等多种形式的信息,并生成所需的图像、视频和音乐等输出。然而,目前结合多模态理解和生成的研究仍处于初级阶段。为了填补这一空白,本文提出了M$^2$UGen框架,通过整合LLM的理解和生成能力,实现了多模态音乐的理解和生成。该框架通过预训练的MERT、ViT和ViViT模型,从音乐、图像和视频等不同的灵感来源中释放创造潜力。为了实现音乐生成,我们还探索了AudioLDM 2和MusicGen的应用。通过LLaMA 2模型的整合,实现了多模态理解和音乐生成的连接。此外,我们还利用MU-LLaMA模型生成了大量的数据集,支持文本/图像/视频到音乐的生成,为我们的M$^2$UGen框架的训练提供了支持。我们对提出的框架进行了全面的评估,实验结果表明,我们的模型在性能方面达到或超过了当前最先进模型。 【引导阅读的问题】 如何利用大规模语言模型实现多模态音乐理解与生成? 【论文链接】 https://arxiv.org/pdf/2311.11255
打开封面
下载高清视频
观看高清视频
视频下载器
大规模语言模型的训练与优化研究
Amphion:一款开源的音频、音乐和语音生成工具包
蜜蜜蜂:一种局部增强的多模态大型语言模型投影器
大规模多模态模型扩展研究
多模态协同学习模型
大规模语言模型在科学中的应用:P vs. NP问题的研究
MusicAgent: An AI Agent for Music Understanding and Generation with Large Langua
探索大型语言模型在工业芯片设计中的应用
生成高质量的长视频:SEINE视频扩散模型
利用数据中心方法提升大型语言模型在金融领域的应用
大规模语言模型结合神经符号模型的生成型神经符号视觉推理
基于认知树的小型语言模型推理能力提升
解释性语言模型特征发现
基于CapsFusion的高质量多模态预训练数据生成
基于语言模型的在线纠错和知识检索系统DROC在机器人任务泛化中的应用
融合像素与潜在扩散模型的文本到视频生成方法
基于文本到图像扩散模型的文本到视频生成架构研究
基于统一视觉语言模型的图像和视频混合学习
大型语言模型在代码生成基准测试中表现出良好性能
基于自然语言模型的离线强化学习框架LaMo
大型语言模型生成内容质量自评估提升选择性生成
大规模语言模型的数学求解能力的安全性评估
基于多模态工具的大型语言模型控制系统ControlLLM
多模态大模型CLIP/视觉十分钟/多模态/大模型
智能手机应用操作的多模态智能代理框架
RLHF-V: 通过细粒度纠正性人工反馈实现值得信赖的多模态大型语言模型
基于协同学习的可组合视觉语言模型
基于语言、任务和指标的人工智能模型的一致性分析
多模态基础模型研究综述
分布式大型语言模型的互联网低成本推理与微调
大型纪录片【上海交大免费大模型教程!】张倬胜教授带你动手学大模型!
基于ChatGPT的模板生成方法用于图像分类
快速高效文本到图像生成模型
注意力满足视角下语言模型事实错误研究
基于科学图像分析GPT-Vision的生成能力和局限性
多模态大型语言模型Gemini在常识推理中的表现评估
人工智能在图灵测试中的自然语言交流与欺骗能力分析
多模态指令图像生成:Instruct-Imagen模型的创新与应用
力压西瓜书、花书和复旦大模型!夺得图书销量第一的图解GPT!本科生也能轻松读懂!
多模态模型对齐与强化学习从人类反馈优化