Amphion-开源的音频、音乐和语音生成工具包-武执政 - 视频下载 Video Downloader

Amphion-开源的音频、音乐和语音生成工具包-武执政

发布人

打开封面下载高清视频观看高清视频视频下载器

基于预训练的伪造语音检测研究进展-张鹏远

【语音识别】声学特征提取

西工大ASLP实验室语音生成模型新进展-西北工业大学谢磊老师

Whisper终结者：Reverb ASR 语音识别和说话人分离方面新标杆在前所未有的20万小时人工转录数据上进行训练支持可定制的逐字转录

文本到音频的生成:技术和应用-刘豪赫(Haohe LIU)

【开源数据集】面向动态声学场景语音增强与声源定位任务的麦克风阵列音频数据集

高速高质量零资源歌声合成-雪巍

大规模、动态「语音增强/分离」新基准！清华发布移动音源仿真平台SonicSim，含950+小时训练数据

交互式AI中语音技术实践与探索-万玉龙

超划算的语音课程，确定不来了解下？

开源语音识别利器——NVIDIA NEMO

天才中单体验德国女大学生开学的一天

VideoPoet:谷歌最新多媒体视频生成AI工具

【ChatGPT4.0手机版】国内无需魔法，无限次数使用教程来了！

圆桌：音频与大模型（欧智坚何磊钱彦旻易江燕栾剑张超）

多通道、多人及非基于声纹编码向量的特定人语音抽取-李明

浙大清华发布语音伪造检测框架SafeEar，内容隐私保护，语音造假无处遁形

结合视觉信息的端到端语音翻译-任意火山语音

字节发布音乐大模型 Seed-Music，10秒录音变身歌声，音乐创作GPT 时刻到来！

微软清华改进Transformer：用降噪耳机原理升级注意力，一作在线答疑 DIFF Transformer

在家作AI，昨天780，一台电脑，操作简单，分享我的接单平台，接单技巧和资源分享，目前经济自由！！

最强开源代码模型来了，综合能力和GPT-4o几乎一样，阿里开源Qwen2.5-Coder

少走99%的弯路！0基础快速入门语音识别

开源可商用的AI数字人项目，最高支持4k分辨率

用AI做了一份4W的PPT，AI PPT的流程和方法全在这里

腾讯开源最大 MoE大模型免费可商用

通过NVIDIA NEMO 训练语音AI模型（下）

音乐AI：如何闭合理解和创造的循环-夏光宇(Gus-XIA)

针对口吃语音提出的自动化语音编辑系统-江子越火山语音

开源AI应用平台Dify使能AI敏捷开发

ModelScope语音开源现状和语音语义多模态大模型研究进展张仕良

关于AI语音圈的顶会的INTERSPEECH，你需要知道……

利用文本-语音对比学习提出针对语音合成的韵律文本表征-叶振辉（火山语音）

登上GitHub趋势榜榜首的TTS开源大模型：MaskGCT，刷新全球多项SOTA

Muzic:建立一个多才多艺的音乐人工智能助手-谭旭(Xu-TAN)

强推！Ollama+Chatbox搭建本地大模型，一键加载安装多个gguf开源大模型！

基于跨模态对齐的从语音到歌声转换-李瑞琪火山语音

Sherpa:新一代 Kaldi 部署框架

【荐】人工智能顶会开始投稿了，还有机会获得5000美元，interspeech2025 录用率48%，来稿就收，新人友好，光速审核！

ICASSP 2023 论文预讲会第二期清华大学人机语音交互实验室专场（上）