#4739 字幕识别准确性不高，有错误

103.231* Posted at: 2 months ago

字幕识别准确性不高，有错误

Floor #1 DeepSeek reply at 2 months ago

字幕识别准确率不高，通常是由于选择的 ASR 模型偏小、参数未优化或音频背景噪声干扰导致的。

更换更大的识别模型：在主界面 ASR 渠道中选择 large-v3 模型（如 faster-whisper(本地) + large-v3），准确率最高。
调整断句参数：进入 菜单 → 工具/选项 → 高级选项 → 语音识别参数，推荐设置：
- 语音阈值 = 0.5
- 最短持续时间/毫秒 = 3000
- 最长语音持续秒数 = 6
- 静音分割持续毫秒 = 140
降低噪音干扰：在主界面上方勾选 降噪，或点击 设置更多参数 勾选 分离人声背景声（两者同时勾选时只执行分离人声背景）。
针对中文优化：若原视频为中文，优先选择 Qwen-ASR(本地) 或 字节语音大模型极速版 作为 ASR 渠道，识别精度更高。
启用二次识别：主界面右上角勾选 二次识别，将在配音完成后再次对齐字幕与音频。

Floor #2 103.231* reply at 2 months ago

降低噪音干扰：在主界面上方勾选降噪，或点击设置更多参数勾选分离人声背景声（两者同时勾选时只执行分离人声背景）。
这个设置在哪里？

Floor #3 DeepSeek reply at 2 months ago

在主界面右上角找到“降噪”复选框，直接勾选即可。

点击主界面上的“设置更多参数”按钮，在弹出的窗口中勾选“分离人声背景声”。

若两者同时勾选，软件只会执行分离人声背景声，不会额外进行降噪处理。

Floor #4 103.231* reply at 2 months ago

在识别界面使用降噪了不是很管用

Floor #5 DeepSeek reply at 2 months ago

降噪功能效果有限时，建议改用“分离人声背景声”，其对嘈杂音频的改善效果更明显。操作步骤：

直接启用分离人声背景声：在主界面点击 设置更多参数，勾选 分离人声背景声 和 重新嵌入背景声（如需要保留背景音）。该功能基于 UVR 模型，能更彻底地分离人声与噪声，但处理速度较慢。请注意，勾选此项后，不要再勾选“降噪”，否则软件只会执行分离而忽略降噪。
使用第三方工具手动分离：若软件内置的分离速度无法接受，可使用 UVR5-GUI 等专业工具分离人声，导出为 vocal.wav（格式必须为 wav）。然后将该文件放入视频所在目录下的 _video_out/视频名-后缀 文件夹中（例如 _video_out/myhomework-mp4/vocal.wav），软件会自动使用该文件作为 ASR 输入，避免再次进行分离。

Floor #6 103.231* reply at 2 months ago

调整断句参数：进入菜单 → 工具/选项 → 高级选项 → 语音识别参数，推荐设置：

语音阈值 = 0.5
最短持续时间/毫秒 = 3000
最长语音持续秒数 = 6
静音分割持续毫秒 = 140
这个参数不准确，还不如我默认的

Floor #7 DeepSeek reply at 2 months ago

参数推荐值因视频类型和语音模型而异，默认参数同样经过优化。若默认效果更佳，请优先使用默认值。若仍需调整，可按以下维度微调：

静音分割持续毫秒：静音时长较长的视频（如录音室录制）可尝试增大至 500-1000，避免过度分割；背景噪音多的视频可降低至 200-300，减少噪声段被误判为语音。
最短持续时间/毫秒：降低至 500-1000 可保留更短的句子（如快速对话），但可能引入噪声片段；增大至 3000 以上可合并过短字幕，但可能遗漏短句。
最长语音持续秒数：增大至 10-15 可避免长句子被强行截断（适用于语速慢或持续讲话的视频），但增加单段字幕时长可能影响后期对齐。

建议：先使用默认值完成一个视频翻译，若断句不佳，根据视频对话节奏逐个参数微调，每次只修改一个参数并用同一视频测试效果。

Floor #8 103.231* reply at 2 months ago

完全不对了

Floor #9 DeepSeek reply at 2 months ago

参数不准确往往是因为单一参数无法适配所有视频。建议从以下方向重新排查和调整，而不是仅依赖一组固定数值：

确认发音语言已手动指定：不要使用“自动检测”，必须明确选择视频实际语言（如中文选“简体中文”），错误语言会大幅降低识别率。
更换ASR模型：
- 中文视频：优先试用 Qwen-ASR(本地) 或 字节语音大模型极速版，效果远优于通用模型。
- 其他语言：使用 openai-whisper(本地) + large-v3 模型，速度慢但准确率高。
调整VAD模型：
进入 菜单 → 工具/选项 → 高级选项 → 语音识别参数，将 选择VAD 从默认切换为 silero，有时能改善分割效果。
关闭“Whisper预分割音频”：
在相同高级选项区域，取消勾选 Whisper预分割音频?（此选项在某些场景下会破坏断句连贯性）。
启用降噪或分离背景声：
如果之前觉得“降噪”不管用，尝试改用“分离人声背景声”（设置更多参数中勾选），对噪声较重的视频改善明显。
重置所有参数为默认：
若完全混乱，可点击高级选项窗口底部的“恢复默认”按钮，从默认状态开始，每次只修改一个参数并用同一视频测试效果。