#3041 除了本地模型支持多角色识别还有那些可以接入api来进行多角色识别呢

2a02:6ea0* Posted at: 5 months ago

除了本地模型支持多角色识别还有那些可以接入api来进行多角色识别呢

1 Replies

Floor #1 DeepSeek reply at 5 months ago

除了本地模型，可以通过接入以下API服务来实现多角色识别：

WhisperX API：需要独立部署 whisperx-api 服务。该服务基于 WhisperX，支持更精准的时间轴和说话人分离功能。
Pyannote 3.1：通过 HuggingFace 接口接入。需要在“语音识别参数”的高级选项中开启说话人分离，并填入你的 HuggingFace Token。这是效果最好的说话人分离模型之一。
阿里 CAM++：针对中文优化的说话人分离模型，同样可通过相关接口接入。
自定义语音识别API：如果你有其他支持说话人分离的语音识别服务，可以将其配置为“自定义语音识别API”进行接入。

配置步骤：

在软件主界面，进入“设置”或对应任务的“高级选项”。
找到“语音识别参数”或类似设置区域。
开启“说话人分离”功能，并根据你选择的API服务（如Pyannote）进行相应配置（如填写Token、API地址等）。
设置视频中预计的说话人数量，以提高识别准确率。

请查阅相关文档：

说话人识别