音频理解视频场景下的推理加速解决方案字节跳动 - 视频下载 Video Downloader

音频理解视频场景下的推理加速解决方案字节跳动

发布人

打开封面下载高清视频观看高清视频视频下载器

开源语音识别工具wenet 简介张彬彬

【语音之家】AI产业沙龙——语音&音乐技术在字节跳动平台的应用

什么是语音信号？

Discussion：生成音频AI和研究社区、艺术产业、公众.mp4

基于语音识别预训练的说话人识别方法

【语音识别】声学特征提取

基于语音噪声双流谱改善网络使用语音失真损失函数的鲁棒语音识别

复杂声学场景下基于复数谱的语音增强和去混技术研究

Sherpa:新一代 Kaldi 部署框架

【清华】从0开始学Kaldi，丝滑入门语音识别，语音识别原来如此简单

基于GAN的无监督机器音频异常检测与定位

【语音之家】AI产业沙龙—音乐技术在字节跳动平台的应用

Amphion-开源的音频、音乐和语音生成工具包-武执政

文本到音频的生成:技术和应用-刘豪赫(Haohe LIU)

Daniel Povey|Zipformer:一种改进的语音识别编码器

ICASSP 2023 论文预讲会第九期天津大学天津市认知计算与应用重点实验室专场

基于音频辨别的对比学习在连续语音中的可定制关键词检测

用于声学信号内容理解的机器学习算法前瞻 -李圣辰 -西交利物浦大学

开源语音识别利器——NVIDIA NEMO

腾讯会议的实时音频技术介绍和展望腾讯天籁实验室余涛

针对部分篡改音频的波形边界检测系统

Panel ：语音技术新时代

【语音之家】AI产业沙龙—语音技术在国音智能的应用

多说话人语音识别中可感知边界的序列化输出训练

基于新一代kaldi项目的语音识别应用实例-郭理勇小米

打造低延时、高精度的腾讯会议智能语音识别系统

深伪音频鉴别研究进展

实时多人会话的语音识别-微软首席应用科学家-陈卓

面向表现力语音合成的多尺度风格建模与生成-吴志勇

京东智能语音交互技术进展及应用

基于数据增强的语音编辑改进ASR中的代码转换和命名实体识别

Whisper终结者：Reverb ASR 语音识别和说话人分离方面新标杆在前所未有的20万小时人工转录数据上进行训练支持可定制的逐字转录

【语音之家】AI产业沙龙—京东在AI语音方向的技术探索与实践

基于自监督学习表示的具有持久性口音记忆的口音识别

1MB内存下移动说话人验证系统的极低比特量化

圆桌：语音开源技术张仕良张彬彬康魏

ICASSP 2023 论文预讲会第七期西北工业大学音频语音与语言处理研究组（NPU-ASLP）专场（上）

【精华30分钟】字节大佬终于把AI Agent讲清楚了！通俗易懂，2024最新内部版，学完即就业！拿走不谢，允许白嫖，学不会我退出IT圈！

白玉兰开源:面向人工智能应用的开放数据集构建及许可协议-金耀辉上海交通大学

低资源小语种自动语音识别：清华THUEE队伍在OpenASR20的系统描述