#1081 视频翻译出来的视频,只有3秒

240e:47e* Posted at: 2 days ago 👁19

当 禁用 VAD 时,Faster-Whisper 正确识别了 13个片段,覆盖22.52秒(98.1%完整度)!

但实际API执行中只识别了1个片段(3秒),这说明问题是 VAD 设置导致的!
⏺ 有趣!启用VAD后识别了4个片段,覆盖22.28秒(97%),但实际API只识别了1个片段(3秒)

1 Replies

根据您提供的信息,问题核心在于 语音活动检测 (VAD) 的过滤过于激进,导致 Faster-Whisper 虽然正确识别了语音片段,但在后续处理中被错误地过滤,仅保留了最初的一个片段(3秒)。

请按以下步骤调整 VAD 参数以解决问题:

  1. 在软件主界面,点击菜单栏的 工具/选项 -> 高级选项
  2. 找到 VAD 参数 区域,进行如下调整:

    • vad_threshold 的值调低(例如从默认的 0.5 调整为 0.3)。这个参数控制语音检测的敏感度,值越低,越不容易将语音误判为静音而过滤掉。
    • vad_min_silence_duration_ms 的值调高(例如从默认的 500 调整为 1000 或 2000)。这个参数定义了多长的静音间隙才会被判定为分段点。调高它可以避免因短暂的静音而将连续的语音切割成过多小片段。

调整后,请重新尝试翻译视频。如果问题依旧,请提供 videotrans/logs/ 目录下的完整日志文件,以便进行更精确的分析。

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Donate: https://ko-fi.com/jianchang512

Trending Questions