SELM：基于离散标记和语言模型的语音增强方法

发布人

报告题目：SELM: Speech Enhancement Using Discrete Tokens And Language Models

完整版：https://umtue.xetlk.com/s/1t5Mmy
 
报告摘要： 语言模型（LM）近期在各种语音生成任务中发挥出卓越的性能，展现了其在语义上下文建模方面的强大能力。鉴于语音生成和语音增强之间的内在相似性，利用语义信息可能对语音增强任务具有潜在优势。为此，我们提出了SELM，一种语音增强的新范式，通过集成离散表征来利用语言模型。SELM包括三个阶段：编码、建模和解码。我们使用预训练的自监督学习（SSL）模型和K-Means聚类将连续的波形信号转换为离散表征。在此之后，语言模型建模隐藏在离散表征中的全面上下文信息。最后，通过将聚类中心簇的坐标应用于HiFi-GAN还原得到增强后语音。实验结果表明，SELM在客观指标上与当下最先进模型取得了可比性能，同时在主观听感上取得了更好的效果。

打开封面下载高清视频观看高清视频视频下载器

SELM：基于离散标记和语言模型的语音增强方法

【清华】从0开始学Kaldi，丝滑入门语音识别，语音识别原来如此简单

特斯拉新发布的机器人已经有点那啥了‼️

AI眼中的高台跳水，非常抽象😱

昨天的特斯拉无人出租车发布会上，特斯拉机器人表现过于出色，遭遇质疑

AI 挑战错觉图 12

4块GPU、不到3天训练出「开源版GPT-4o」 基于LLaMA-3.1-8B，羊驼家族再添大将，实现低延迟/高质量的语音互动

【语音识别】语音的采样与量化

离谱 AI图片太真实 网友：我真的分不清啊啊啊啊！#ai #ai绘画

清华教授刘嘉谈中美AI差距：可怕的是我们落后速度在加快

对标OpenAI高级语音【Her】 开源实时多模态AI聊天机器人Moshi，语音对话延迟低至200毫秒！67页技术报告全公开 AI大神Karpathy盛赞

一种端到端脑电图通道选择的脑辅助语音增强方法

西工大ASLP实验室语音生成模型新进展-西北工业大学谢磊老师

【语音识别】声学特征提取

基于音频辨别的对比学习在连续语音中的可定制关键词检测

Whisper终结者：Reverb ASR 语音识别和说话人分离方面新标杆 在前所未有的20万小时人工转录数据上进行训练 支持可定制的逐字转录

一种基于扩散模型（LDM）的风格语音转换方法 论文推荐

语音识别基础：从声音到语音

浙大清华发布语音伪造检测框架SafeEar，内容隐私保护，语音造假无处遁形

ReFlow-TTS：一个用于高保真的文本到语音的校正流模型

SlideSpeech：大规模幻灯片丰富的语音-视频语料库

基于新一代kaldi项目的语音识别应用实例-郭理勇 小米

音频生成-王文武

RaD-Net：一种用于语音信号改善的修复与降噪网络

【聘】语音算法工程师 云译科技 深圳 本科以上

Manipulate-Anything: 实现机器人操作自动化的视觉-语言模型

面向通用语音离散标记：ASR和TTS的一个案例研究

“雷军”七天骂翻全网还要捐款？本人回应了3个表情！

黑熊与大熊猫签署代打协议

【台大李宏毅】公开课 迈向语音版ChatGPT

TDT-KWS：基于标记和持续时间转换器的快速精准关键词检测系统

利用唤醒词参考语音的高效个人语音活动检测

【语音合成】什么是语音合成？

实测 OpenAI 高级语音功能 & 常见问题解答

【实操】通过NVIDIA NEMO 训练语音AI模型（上）

基于平行语料的可逆变声

网友用雷军AI配音恶搞骂人，律师：已违法 有坐牢风险

国内免翻墙使用chatgpt4.0教程，无需账号，无限次数，安卓手机也可使用。

ESPnet-SE开源工具介绍-钱彦旻 上海交通大学

特斯拉机器人在向大家展示自己的力量

【大模型】认知导向的视听觉大语言模型

4块GPU、不到3天训练出「开源版GPT-4o」基于LLaMA-3.1-8B，羊驼家族再添大将，实现低延迟/高质量的语音互动

离谱 AI图片太真实网友：我真的分不清啊啊啊啊！#ai #ai绘画

对标OpenAI高级语音【Her】开源实时多模态AI聊天机器人Moshi，语音对话延迟低至200毫秒！67页技术报告全公开 AI大神Karpathy盛赞

Whisper终结者：Reverb ASR 语音识别和说话人分离方面新标杆在前所未有的20万小时人工转录数据上进行训练支持可定制的逐字转录

一种基于扩散模型（LDM）的风格语音转换方法论文推荐

基于新一代kaldi项目的语音识别应用实例-郭理勇小米

【聘】语音算法工程师云译科技深圳本科以上

【台大李宏毅】公开课迈向语音版ChatGPT

网友用雷军AI配音恶搞骂人，律师：已违法有坐牢风险

ESPnet-SE开源工具介绍-钱彦旻上海交通大学