Amphion：一款开源的音频、音乐和语音生成工具包

发布人

【加群】 一起来刷arxiv，请加vx: pwbot02(请备注：b站arxiv) 
【论文标题】 Amphion：一款开源的音频、音乐和语音生成工具包
【论文简述】 Amphion是一款致力于音频、音乐和语音生成研究的开源工具包。其主要目标是支持可重复性研究，帮助初级研究人员和工程师快速入门音频、音乐和语音生成领域。Amphion的独特之处在于提供了经典模型或架构的可视化，这有助于初学者更好地理解模型。Amphion的设计支持各种生成任务，包括文本到语音、歌唱语音转换和文本到音频生成。此外，Amphion还包含了多个声码器和评估指标。声码器对于生成高质量的音频信号至关重要，而评估指标则有助于确保生成任务的一致性。本文概述了Amphion的高级特性和功能。
【论文链接】 https://arxiv.org/abs/2312.09911

打开封面下载高清视频观看高清视频视频下载器

Amphion：一款开源的音频、音乐和语音生成工具包

FreGrad: Lightweight and Fast Frequency-aware Diffusion Vocoder

Seed-Music字节发布高质量、可控的音乐生成统一框架,10s唱歌克隆

基于上下文调整的检索增强生成方法

AI变声器,Seed-Vc,0920,突破30秒长度限制,零样本无须训练变声,AI歌曲翻唱,zero-shot,音色修改

开源指令生成：用开源代码提升代码生成模型性能

稳定分数蒸馏：高质量三维生成新方法

FreeInit：弥合视频扩散模型初始化鸿沟以提升生成视频的时间一致性

FastDiT-3D：高效生成高质量三维点云的扩散变换器

融合像素与潜在扩散模型的文本到视频生成方法

大型语言模型生成内容质量自评估提升选择性生成

大型语言模型在上下文学习中的可靠性提升：结合监督知识的方法

SyncDreamer：基于单图像生成3D物体新方法

System 2 Attention (is something you might need too)

FineControlNet：基于空间对齐文本控制注入的图像生成细粒度文本控制

基于潜在变量推断的训练链式思维提升语言模型推理能力

基于文本到图像扩散模型的文本到视频生成架构研究

OpenIns3D: 3D开放词汇实例分割的新框架

快速高效文本到图像生成模型

GridFormer 表结构识别方法

GAN生成高保真3D几何：渲染每个像素以提升3D GAN质量

大规模语言模型在多模态音乐理解与生成中的应用

TinySAM：高效分割模型的新突破

MusicAgent: An AI Agent for Music Understanding and Generation with Large Langua

CityDreamer: 生成逼真多样的无界3D城市布局

基于ChatGPT的模板生成方法用于图像分类

Conditional Diffusion Distillation

层次规划组合基础模型研究

分布式注意力机制：长文本处理的高效LLM服务系统

通用视觉基础模型：多任务学习实现高效零样本迁移

微量多语言数据提升多语言指令跟随能力

生成高质量的长视频：SEINE视频扩散模型

高斯涂抹文本生成三维模型

一起来盘盘Paper QA工具哪家强

VideoLCM：基于视频潜在一致性模型的高效视频合成方法

TinyLlama：开源小型语言模型的新突破

动态3D高斯分布与合成扩散模型：实现文本到4D动画的生成

区域描述生成：轻量级增强交互式分割模型

基于视觉的灵巧操纵研究综述

PhotoVerse: 个性化文本到图像生成的调谐自由方法

DiffiT：基于扩散视觉Transformer的图像生成