#4196 VAD选项的区别

2409:8a55* Posted at: 1 day ago 👁20

VAD选项的区别

1 Replies

VAD(语音活动检测)选项用于在语音识别前切分音频,区分语音和静音/噪音。不同VAD模型在准确性、资源消耗和适用场景上有所区别。

  1. ten-vad:基于腾讯开源的VAD模型,对中文语音有较好支持,平衡了准确性和性能,是推荐选项之一。
  2. silero:一个流行的开源VAD模型,支持多种语言,性能稳定,也是常用推荐选项。
  3. pyannote:通常与说话人分离(Diarization)功能结合使用,能更精细地区分不同说话人,但需要配置HuggingFace Token并同意授权协议。
  4. 内置:软件自带的简单VAD模型,适用于基础场景。

选择建议

  • 对于常规语音识别(尤其是中文),建议优先选择 ten-vadsilero
  • 如果需要区分视频中不同的说话人,应开启“识别说话人”功能,并在高级选项的“说话人分离模型”中选择 pyannote(需额外配置)或 阿里 CAM++(针对中文优化)。

关键参数调整(位于“设置更多参数”或“高级选项”中):

  • 语音阈值:默认0.5。降低此值(如0.3)会使检测更敏感,但可能将噪音误判为语音;提高此值(如0.6)则更严格,可能漏掉微弱语音。
  • 静音分割持续毫秒数:默认500ms。增大此值(如800)会使语音片段更长;减小此值(如300)则切割更细碎。
  • 最短语音持续毫秒数:默认值。若使用clone角色进行声音克隆,必须设置为3000或以上,以确保参考音频时长足够(3-10秒)。

请查阅相关文档:

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource