#3961 ten-vad和Silero的区别

2409:8a55* Posted at: 2 hours ago 👁7

VAD怎么选,都有什么区别?

1 Replies

VAD(语音活动检测)用于在语音识别前切分音频,区分语音段和静音/噪音段。ten-vadsilero 是两种不同的 VAD 模型,主要区别在于性能和资源消耗。

区别与选择建议:

  1. ten-vad:基于 Tencent 的 VAD 模型,对中文语音的检测效果通常更好,更准确。
  2. silero:一个通用的 VAD 模型,支持多种语言,在非中文场景下表现良好,资源消耗相对较低。

如何选择:

  • 如果您的原始视频是中文语音,优先选择 ten-vad 以获得更准确的切分。
  • 如果原始视频是英文或其他语言,或者您希望降低资源占用,可以选择 silero
  • 您可以在“菜单-工具-高级选项-语音识别参数-选择VAD”中进行切换和测试。

通用参数调整(无论选择哪个VAD):

  • 语音阈值:默认0.5。降低此值(如0.3)会使检测更敏感,但可能将噪音误判为语音;提高此值(如0.7)则更严格,可能漏掉微弱语音。
  • 静音分割持续毫秒数:默认500ms。增大此值(如800)会让语音片段合并得更长;减小此值(如300)则切分更细碎。

请查阅相关文档:

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource