V
主页
基于多频带时频注意力的复调音乐旋律提取
发布人
打开封面
下载高清视频
观看高清视频
视频下载器
具有目标说话人吸引子的端到端神经说话人分类的基于注意力的编解码器网络
Sherpa:新一代 Kaldi 部署框架
基于SepFormer的交叉注意力音视频目标说话人语音提取方法
声纹识别可视化研究分析
【语音识别】声学特征提取
基于新一代kaldi项目的语音识别应用实例-郭理勇 小米
深度生成固定滤波器的有源噪声控制
VISinger:高保真端到端歌声合成模型
交互式AI中语音技术实践与探索-万玉龙
端到端语音到语音翻译中的零样本风格迁移
基于GAN的无监督机器音频异常检测与定位
通过NVIDIA NEMO 训练语音AI模型(下)
基于多通道时空特征和知识蒸馏的鲁棒目标说话人提取研究
文本到音频的生成:技术和应用-刘豪赫(Haohe LIU)
入门语音合成,听这个课真的可以哦
声音成分分析及其下游应用
OpenAl:从Transformer的历史中塑造人工智能的未来
基于跨模态对齐的从语音到歌声转换-李瑞琪 火山语音
基于多通道训练和交叉信息融合的低资源端到端口音识别
MISP 2023挑战中视听目标扬声器提取的XMUSPEECH系统
基于自监督学习表示的具有持久性口音记忆的口音识别
【实操】通过NVIDIA NEMO 训练语音AI模型(上)
ModelScope语音开源现状和语音语义多模态大模型研究进展 张仕良
【音乐与音频处理】ESPnet-Muskits及其与LLM的扩展-史嘉彤(Jiatong-SHI)
音频内容生成:构建数字化人类、人性化人工智能-雪巍(Wei-XUE)
【ICASSP】超短注册时间的目标说话人提取模型
基于伪孪生网络的音色保留的说话人识别黑盒对抗攻击
鲁棒说话人识别高级池化方法-MAK Man-Wai
基于ControlVAE和扩散桥的语音合成可解释风格转换
圆桌:语音开源技术 张仕良 张彬彬 康魏
基于热词短语预测网络的热词语音识别
基于随机分类器的小样本类别增量音频分类
TFCNet:用于语音分离的时频域校正网络
面向神经声码器训练的一种合成语料生成方法
【ICASSP】加入预训练模型的半监督声音事件检测
如何工程化一个语音开源项目: 手把手带你实现开源声纹分割聚类项目 pyannote-audio 的工程化
【语音之家公开课】表现力语音与歌唱合成
音乐和音频数据的学习方法-Emmanouil-BENETOS
基于乱序自回归的动作插值
【语音之家】AI产业沙龙—腾讯AI Lab语音技术进展分享报告