#3041 除了本地模型支持多角色识别还有那些可以接入api来进行多角色识别呢

2a02:6ea0* Posted at: 15 days ago 👁44

除了本地模型支持多角色识别还有那些可以接入api来进行多角色识别呢

1 Replies

除了本地模型,可以通过接入以下API服务来实现多角色识别:

  1. WhisperX API:需要独立部署 whisperx-api 服务。该服务基于 WhisperX,支持更精准的时间轴和说话人分离功能。
  2. Pyannote 3.1:通过 HuggingFace 接口接入。需要在“语音识别参数”的高级选项中开启说话人分离,并填入你的 HuggingFace Token。这是效果最好的说话人分离模型之一。
  3. 阿里 CAM++:针对中文优化的说话人分离模型,同样可通过相关接口接入。
  4. 自定义语音识别API:如果你有其他支持说话人分离的语音识别服务,可以将其配置为“自定义语音识别API”进行接入。

配置步骤

  1. 在软件主界面,进入“设置”或对应任务的“高级选项”。
  2. 找到“语音识别参数”或类似设置区域。
  3. 开启“说话人分离”功能,并根据你选择的API服务(如Pyannote)进行相应配置(如填写Token、API地址等)。
  4. 设置视频中预计的说话人数量,以提高识别准确率。

请查阅相关文档:

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource