V
主页
实时语音识别,流式SenseVoice来啦!
发布人
SenseVoice,阿里上个月发布的超强文本转语音开源模型,还能识别情绪和声音事件。small的模型自回归结构速度很快。 我花了周末两天写了一个流式的websocket服务:用fsmn-vad做声音活动检测断句,用cam++做说话人确认(可选,在非安静环境收音,speaker verification非常有用,能够有效避免识别干扰,不过人声重叠的情况目前是一个挑战 ),用SenseVoiceSmall做ASR,整体效果还是不错。 项目已经开源:https://github.com/0x5446/api4sensevoice
打开封面
下载高清视频
观看高清视频
视频下载器
【vLLM+Sensevoice+Cosyvoice】本地部署大语言模型+ASR+TTS实现个人智能助手功能-环境部署及成果展示
【SenseVoice】一键包 阿里开源语音识别 高精度、多语言、情感辨识和音频事件检测
搭建自己的语音对话大模型 | ASR+LLM+TTS串联
一键运行开源Qwen2-Audio大模型体验声音识别与语音输入
展示篇:1.Ai数字人实时对话交互
安装Ollama+CosyVoice打造流式智能语音秘书,流式生成语音大大缩短了等待时间,提升用户体验
Whisper终结者:Reverb ASR 语音识别和说话人分离方面新标杆 在前所未有的20万小时人工转录数据上进行训练 支持可定制的逐字转录
实时语音转文字软件SenseVoice整合包,免费语音识别工具
基于FunASR说话人声纹识别实现说话人确认及ASR
本地化实时语音识别
阿里最新开源Qwen2-Audio音频大模型,音频直接输入,功能强大,一键运行包,解压即用
本地化实时语音识别 · 终结
语音转字幕神器Fast-Whisper-GUI
安装开源的SenseVoice实现比Whisper更快更精准的语音转文字
FunASR 实时流式语音识别 iOS实现
最强中文识别funasr模型,阿里巴巴全线开源,热词识别,CPU设备直接运行
自己封装CosyVoice API实现流式文字转语音支持3秒急速复刻声音(流式TTS)
一键批量提取音频,视频文案,阿里开源SenseVoice模型速度超级快
Python实现实时语音转写
基于funasr+pyaudio实现电脑本地麦克风实时语音识别项目语音转文本python实现
我实现了语音流式转录翻译!(win11实时字幕+Luna Translator hook)
开源免费的FunASR实时语音识别模型,手把手教你部署和使用
AI语音生成天花板,效果吊打实测,全网最简单!
【AI音色克隆】阿里巴巴CosyVoice V3.0最新整合包,一键克隆音色,解压即用,无需配置环境!| CosyVoice | 音色克隆 | AI | 整合包
GPT-SoVITS-TTS2.4.0!生产力拉满!字幕一键转语音,支持多发音人、多情感。一键合成音频文件。配合语音合成拖拽超级好用。
AI应用-本地部署LLM+TTS+ASR实现语音面试对话
ESP32+SenseVoice+Qwen72B打造你的AI聊天伴侣!
101 新一代Kaldi+WebAssembly+SenseVoice+VAD: 浏览器本地中英文语音识别
【清华】从0开始学Kaldi,丝滑入门语音识别,语音识别原来如此简单
真·低延时/全双工/可打断的AI语音对话demo——哪吒01
真·低延时/全双工/可打断的AI语音对话demo——哪吒03
【vLLM+Sensevoice+Cosyvoice】本地部署大语言模型+ASR+TTS实现个人智能助手功能-ASR功能演示
看片没字幕?不要怕!外语视频AI自动翻译工具,神器在手天下我有,我即字幕组。 Whipser语音转文字,ChatGPT翻译,edge_tts文字转语音
python实现语音识别功能-喂饭式教学(附文档 源码)
基于faster_whisper的实时语音识别 | 可对接大模型的实时语音识别 | 实时语音识别 | 一句话识别
从0开始语音识别(附带讲解内容)Python
CapsWriter-Offline 电脑端离线语音输入工具
faster_whisper部署详细教程 | 可内网部署ASR | 开源ASR
FunASR语音识别 + Qwen2大模型,快速提取音视频内容,整理成结构化的Markdown笔记,准确度非常高
可本地部署的实时语音识别项目