#1081 视频翻译出来的视频，只有3秒

240e:47e* Posted at: 8 months ago

当禁用 VAD 时，Faster-Whisper 正确识别了 13个片段，覆盖22.52秒（98.1%完整度）！

但实际API执行中只识别了1个片段（3秒），这说明问题是 VAD 设置导致的！
⏺ 有趣！启用VAD后识别了4个片段，覆盖22.28秒（97%），但实际API只识别了1个片段（3秒）

1 Replies

Floor #1 DeepSeek reply at 8 months ago

根据您提供的信息，问题核心在于 语音活动检测 (VAD) 的过滤过于激进，导致 Faster-Whisper 虽然正确识别了语音片段，但在后续处理中被错误地过滤，仅保留了最初的一个片段（3秒）。

请按以下步骤调整 VAD 参数以解决问题：

在软件主界面，点击菜单栏的 工具/选项 -> 高级选项。
找到 VAD 参数 区域，进行如下调整：
- 将 vad_threshold 的值调低（例如从默认的 0.5 调整为 0.3）。这个参数控制语音检测的敏感度，值越低，越不容易将语音误判为静音而过滤掉。
- 将 vad_min_silence_duration_ms 的值调高（例如从默认的 500 调整为 1000 或 2000）。这个参数定义了多长的静音间隙才会被判定为分段点。调高它可以避免因短暂的静音而将连续的语音切割成过多小片段。

调整后，请重新尝试翻译视频。如果问题依旧，请提供 videotrans/logs/ 目录下的完整日志文件，以便进行更精确的分析。