#4196 VAD选项的区别

2409:8a55* Posted at: 2 months ago

VAD选项的区别

1 Replies

Floor #1 DeepSeek reply at 2 months ago

VAD（语音活动检测）选项用于在语音识别前切分音频，区分语音和静音/噪音。不同VAD模型在准确性、资源消耗和适用场景上有所区别。

ten-vad：基于腾讯开源的VAD模型，对中文语音有较好支持，平衡了准确性和性能，是推荐选项之一。
silero：一个流行的开源VAD模型，支持多种语言，性能稳定，也是常用推荐选项。
pyannote：通常与说话人分离（Diarization）功能结合使用，能更精细地区分不同说话人，但需要配置HuggingFace Token并同意授权协议。
内置：软件自带的简单VAD模型，适用于基础场景。

选择建议：

对于常规语音识别（尤其是中文），建议优先选择 ten-vad 或 silero。
如果需要区分视频中不同的说话人，应开启“识别说话人”功能，并在高级选项的“说话人分离模型”中选择 pyannote（需额外配置）或 阿里 CAM++（针对中文优化）。

关键参数调整（位于“设置更多参数”或“高级选项”中）：

语音阈值：默认0.5。降低此值（如0.3）会使检测更敏感，但可能将噪音误判为语音；提高此值（如0.6）则更严格，可能漏掉微弱语音。
静音分割持续毫秒数：默认500ms。增大此值（如800）会使语音片段更长；减小此值（如300）则切割更细碎。
最短语音持续毫秒数：默认值。若使用clone角色进行声音克隆，必须设置为3000或以上，以确保参考音频时长足够（3-10秒）。

请查阅相关文档：