whisperx项目，这个项目主要基于 faster-whisper 和 pyannote-audio 实现了可以区分说话人的语音识别功能。

发布人

whisper x 项目，这个项目主要基于 faster-whisper 和 pyannote-audio 实现了可以区分说话人的语音识别功能。
地址：https://github.com/m-bain/whisperX.git
import whisperx  # 导入whisperx模块
import gc  # 导入gc模块，用于垃圾回收

device = &quot;cuda&quot;  # 指定设备为CUDA（显卡加速）
audio_file = &quot;/content/en3_resampled.wav&quot;  # 指定音频文件路径
batch_size = 16  # 批处理大小，如果GPU内存不足则减小这个值
compute_type = &quot;float16&quot;  # 计算类型为浮点数16位，如果GPU内存不足则改为整数8位（可能会降低准确性）

# 1. 使用原始whisper进行转录（批处理）
model = whisperx.load_model(&quot;large-v3&quot;, device, compute_type=compute_type)  # 加载模型

# 将模型保存到本地路径（可选）
# model_dir = &quot;/path/&quot;
# model = whisperx.load_model(&quot;large-v2&quot;, device, compute_type=compute_type, download_root=model_dir)

audio = whisperx.load_audio(audio_file)  # 加载音频文件
result = model.transcribe(audio, batch_size=batch_size)  # 使用模型进行转录
print(result[&quot;segments&quot;])  # 打印转录结果的分段（未对齐之前）

# 如果GPU资源不足，则删除模型
# import gc; gc.collect(); torch.cuda.empty_cache(); del model

# 2. 对齐whisper输出
model_a, metadata = whisperx.load_align_model(language_code=result[&quot;language&quot;], device=device)  # 加载对齐模型
result = whisperx.align(result[&quot;segments&quot;], model_a, metadata, audio, device, return_char_alignments=False)  # 对齐转录结果

print(result[&quot;segments&quot;])  # 打印对齐后的转录结果的分段

# 如果GPU资源不足，则删除模型
# import gc; gc.collect(); torch.cuda.empty_cache(); del model_a

# 3. 分配说话者标签
diarize_model = whisperx.DiarizationPipeline(model_name=&#39;pyannote/speaker-diarization-3.1&#39;, use_auth_token=&#39;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&#39;, device=device)  # 加载分离说话者模型

# 如果已知最小/最大说话者数量，则添加到参数中
diarize_segments = diarize_model(audio)  # 进行说话者分离
# diarize_model(audio, min_speakers=min_speakers, max_speakers=max_speakers)

result = whisperx.assign_word_speakers(diarize_segments, result)  # 为转录结果分配说话者
print(diarize_segments)  # 打印说话者分离结果
print(result[&quot;segments&quot;])  # 打印分配了说话者ID的转录结果

打开封面下载高清视频观看高清视频视频下载器

whisperx项目，这个项目主要基于 faster-whisper 和 pyannote-audio 实现了可以区分说话人的语音识别功能。

whisper实时语音识别

【SRT字幕工具箱】当Whisper识别的字幕不会智能断句时，试试这个方法！

【Whisper-WebUI】本地部署一键包 离线识别字幕

语音转字幕神器Fast-Whisper-GUI

whisperX largev3 测试：30分钟不间断谈话用时103秒，平均每秒处理88字

【Whisper-Webui】一键包 批量离线制作字幕文件 自带large-v3模型

faster_whisper部署详细教程 | 可内网部署ASR | 开源ASR

Whisper 开源语音转字幕软件，集成显卡也能跑

如何用 faster-whisper 做一个超低延迟语音聊天机器人

Whisper | Faster Whisper | 语音识别 | 可内网部署的ASR

一个离线运行的本地语音识别转文字服务，输出json、srt字幕带时间戳、纯文字格式

300元Tesla P4, 让Whisper语音识别提升加速10倍，完美的语音加速卡

实时语音识别部署教程 | 可离线部署的实时语音识别项目

基于faster whisper实现实时语音识别项目语音转文本python编程实现

【深度学习】基于whisper的语音识别

基于whisper实现的前端调用麦克风进行语音识别

基于faster whisper的实时语音识别项目

可本地部署的实时语音识别项目

VAD优化Whisper，faster-whisper-webui一个转录速度起飞的开源语音识别项目，转录效果很好

分享一个Comfyui的一键真人转动漫视频工作流

基于faster_whisper的实时语音识别

【AI主播-STT篇】接入 faster-whisper，本地识别，不用魔法，不用密钥，省钱（但是费电

使用VAD优化过的whisper语音识别开源项目faster-whisper-webui，免费开源，福利多多

whisper实时语音识别-普通话效果

能离线使用的语音识别工具：Buzz，使用OpenAI Whisper神经网路，正确率高

whisper-jax最详细的安装教程 | 一个号称比whisper快70倍的语音识别项目 | 免费开源的语音识别项目

免费的whisper模型与音视频翻译4-subtitle edit-本地大模型语音识别转写

语音转文字，本地部署，Fast whisper免费分享

油管大V用whisper实现“零延迟”语音转写，真的吗？🤔️

声纹识别系统GUI（说话人识别）

whisper,whisper-jax和faster whisper速度对比

纯内网部署Whisper | 竟然可以这么简单在无外网环境下安装Whisper

新一代 Kaldi: 说话人识别+VAD+语音识别之 Python API

语音识别OpenAI Whisper微调，识别中文地方方言-潮州话

五分钟！学会Window上都可运行的高精度语音识别模型Faster-whisper，完全免费开源

OpenAI 发布新版开源语音识别模型 whisper-large-v3

faster_whisper封装成一个api接口

五分钟！快速体验Qwen-Audio语音识别，阿里最新开源的大语音模型

免费的whisper模型与音视频翻译1-whisper desktop

免费开源语音转文字Whisper快速搭建，可生成字幕，媒体人的福音

【Whisper-WebUI】本地部署一键包离线识别字幕

【Whisper-Webui】一键包批量离线制作字幕文件自带large-v3模型