#4739 字幕识别准确性不高,有错误

103.231* Posted at: 2 hours ago

字幕识别准确性不高,有错误

9 Replies

字幕识别准确率不高,通常是由于选择的 ASR 模型偏小、参数未优化或音频背景噪声干扰导致的。

解决步骤:

  1. 更换更大的识别模型:在主界面 ASR 渠道中选择 large-v3 模型(如 faster-whisper(本地) + large-v3),准确率最高。
  2. 调整断句参数:进入 菜单 → 工具/选项 → 高级选项 → 语音识别参数,推荐设置:

    • 语音阈值 = 0.5
    • 最短持续时间/毫秒 = 3000
    • 最长语音持续秒数 = 6
    • 静音分割持续毫秒 = 140
  3. 降低噪音干扰:在主界面上方勾选 降噪,或点击 设置更多参数 勾选 分离人声背景声(两者同时勾选时只执行分离人声背景)。
  4. 针对中文优化:若原视频为中文,优先选择 Qwen-ASR(本地)字节语音大模型极速版 作为 ASR 渠道,识别精度更高。
  5. 启用二次识别:主界面右上角勾选 二次识别,将在配音完成后再次对齐字幕与音频。

请查阅相关文档:

降低噪音干扰:在主界面上方勾选 降噪,或点击 设置更多参数 勾选 分离人声背景声(两者同时勾选时只执行分离人声背景)。
这个设置在哪里?

在主界面右上角找到“降噪”复选框,直接勾选即可。

点击主界面上的“设置更多参数”按钮,在弹出的窗口中勾选“分离人声背景声”。

若两者同时勾选,软件只会执行分离人声背景声,不会额外进行降噪处理。

在识别界面使用降噪了不是很管用

降噪功能效果有限时,建议改用“分离人声背景声”,其对嘈杂音频的改善效果更明显。操作步骤:

  1. 直接启用分离人声背景声:在主界面点击 设置更多参数,勾选 分离人声背景声重新嵌入背景声(如需要保留背景音)。该功能基于 UVR 模型,能更彻底地分离人声与噪声,但处理速度较慢。请注意,勾选此项后,不要再勾选“降噪”,否则软件只会执行分离而忽略降噪。
  2. 使用第三方工具手动分离:若软件内置的分离速度无法接受,可使用 UVR5-GUI 等专业工具分离人声,导出为 vocal.wav(格式必须为 wav)。然后将该文件放入视频所在目录下的 _video_out/视频名-后缀 文件夹中(例如 _video_out/myhomework-mp4/vocal.wav),软件会自动使用该文件作为 ASR 输入,避免再次进行分离。

请查阅相关文档:

调整断句参数:进入 菜单 → 工具/选项 → 高级选项 → 语音识别参数,推荐设置:

语音阈值 = 0.5
最短持续时间/毫秒 = 3000
最长语音持续秒数 = 6
静音分割持续毫秒 = 140
这个参数不准确,还不如我默认的

参数推荐值因视频类型和语音模型而异,默认参数同样经过优化。若默认效果更佳,请优先使用默认值。若仍需调整,可按以下维度微调:

  • 静音分割持续毫秒:静音时长较长的视频(如录音室录制)可尝试增大至 500-1000,避免过度分割;背景噪音多的视频可降低至 200-300,减少噪声段被误判为语音。
  • 最短持续时间/毫秒:降低至 500-1000 可保留更短的句子(如快速对话),但可能引入噪声片段;增大至 3000 以上可合并过短字幕,但可能遗漏短句。
  • 最长语音持续秒数:增大至 10-15 可避免长句子被强行截断(适用于语速慢或持续讲话的视频),但增加单段字幕时长可能影响后期对齐。

建议:先使用默认值完成一个视频翻译,若断句不佳,根据视频对话节奏逐个参数微调,每次只修改一个参数并用同一视频测试效果。

完全不对了

参数不准确往往是因为单一参数无法适配所有视频。建议从以下方向重新排查和调整,而不是仅依赖一组固定数值:

  1. 确认发音语言已手动指定:不要使用“自动检测”,必须明确选择视频实际语言(如中文选“简体中文”),错误语言会大幅降低识别率。
  2. 更换ASR模型

    • 中文视频:优先试用 Qwen-ASR(本地)字节语音大模型极速版,效果远优于通用模型。
    • 其他语言:使用 openai-whisper(本地) + large-v3 模型,速度慢但准确率高。
  3. 调整VAD模型
    进入 菜单 → 工具/选项 → 高级选项 → 语音识别参数,将 选择VAD 从默认切换为 silero,有时能改善分割效果。
  4. 关闭“Whisper预分割音频”
    在相同高级选项区域,取消勾选 Whisper预分割音频?(此选项在某些场景下会破坏断句连贯性)。
  5. 启用降噪或分离背景声
    如果之前觉得“降噪”不管用,尝试改用“分离人声背景声”(设置更多参数中勾选),对噪声较重的视频改善明显。
  6. 重置所有参数为默认
    若完全混乱,可点击高级选项窗口底部的“恢复默认”按钮,从默认状态开始,每次只修改一个参数并用同一视频测试效果。

请查阅相关文档:

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource