#4146 能兼容调用UVR5 - MDX23C-InstVoc HQ模型吗？

142.202* Posted at: 2 months ago

使用pyvideotrans里面的ggml-large-v3-turbo模型提取视频的人物语音，转换成srt字幕的时候，ggml-large-v3-turbo模型老是把开场音乐当做人声，我生成的字幕在第一秒就出现了，明明人声是在三十多秒之后才出现的。然后切换了faster-whisper（本地）的large-v3模型，根据AI微调了一下参数
不过还是会出现把背景音识别成人物语音，感觉是分离模型不够好导致的希望
以后能出现调用UVR5 - MDX23C-InstVoc HQ模型的选项

Floor #1 DeepSeek reply at 2 months ago

你的问题核心是背景音乐被误识别为人声，导致字幕时间轴错误。这通常是由于视频背景音乐较强或语音识别模型的语音活动检测（VAD）参数不够灵敏所致。

解决方案：

优化现有语音识别设置：
- 在“翻译视频或音频”界面，确保已勾选 降噪 选项。
- 点击 设置更多参数...，在弹出的窗口中，勾选 分离人声背景声。这将使用软件内置的分离模型，在识别前先提取人声，能有效提升嘈杂环境下的识别准确率。
- 进入 菜单 -> 工具/选项 -> 高级选项，找到 语音识别参数 区域，进行如下调整：
  - 语音阈值：适当提高此值（例如从默认的0.5提高到0.6或0.7）。更高的阈值意味着只有更确定的语音片段才会被识别，有助于过滤背景乐。
  - 静音分割持续毫秒：适当增加此值（例如从500ms增加到800ms或1000ms）。这会让模型在更长的静音后才进行分割，有助于将连续的背景乐与语音区分开。
  - 最长语音持续秒数：可以适当降低（例如设为4或5秒）。如果背景乐是长片段，此设置可强制进行分割。
关于调用UVR5模型：
pyVideoTrans 目前不支持直接调用或集成 UVR5 的 MDX23C-InstVoc HQ 模型。软件内置的人声分离功能使用的是其他模型（如 htdemucs 等，可在高级选项中切换）。
如果你希望使用 UVR5 进行更高质量的人声分离，需要手动预处理视频：
- 先使用 UVR5 等外部工具将视频中的人声和背景音乐分离，得到纯净的人声音频文件（如 vocals.wav）。
- 然后在 pyVideoTrans 中，不要直接导入原视频，而是导入这个分离后的人声音频文件（vocals.wav）进行语音识别和后续处理。
尝试其他语音识别渠道：
如果 faster-whisper 效果不理想，可以尝试切换到 Qwen-ASR(本地) 渠道（对中文优化）或 openai-whisper(本地) 的 large-v3 模型，它们可能对背景噪音有不同的处理特性。

总结步骤：

在当前视频翻译任务中，启用“降噪”和“分离人声背景声”。
进入高级选项，调高“语音阈值”和“静音分割持续毫秒”值。
如果仍不满意，需使用 UVR5 等外部工具进行手动预处理，再将纯净人声音频导入软件处理。
考虑更换语音识别渠道。

请查阅相关文档：

Floor #2 Admin reply at 2 months ago

主界面--设置更多参数--选中人声背景声分离，默认就是使用的uvr模型

Floor #3 223.74* reply at 2 months ago

默认的是uvr模型
效果确实没有UVR5模型的UVR5 - MDX23C-InstVoc HQ好用

Floor #4 DeepSeek reply at 2 months ago

核心原因是软件内置的人声分离模型（UVR）效果可能不如你期望的 UVR5 - MDX23C-InstVoc HQ 模型。

根据开发者回复，软件主界面“设置更多参数”中勾选的“分离人声背景声”，默认使用的就是 UVR 模型。如果你已启用此选项但效果仍不理想，说明当前内置的模型分离能力不足以完全滤除你视频中的背景音乐干扰。

解决方案如下：

手动预处理（推荐）：使用外部的 UVR5 工具（含 MDX23C-InstVoc HQ 模型）对原视频进行人声分离，得到纯净的 vocals.wav 文件。然后在 pyVideoTrans 中，直接导入这个 vocals.wav 文件进行语音识别和后续翻译/配音流程。
优化现有分离效果：在启用“分离人声背景声”的同时，进入 菜单 -> 工具/选项 -> 高级选项，在 通用设置 区域找到 分离背景声模型 下拉菜单。尝试切换为其他可用的模型（如 htdemucs、htdemucs_ft 等），看是否有改善。
结合语音识别参数调整：在 高级选项 -> 语音识别参数 区域，进一步提高 语音阈值（例如设为 0.7 或更高）和 静音分割持续毫秒（例如设为 1000），这能在分离后的人声基础上，进一步减少误将残留背景乐识别为语音的概率。

总结步骤：

若对质量要求高，采用方案1进行手动预处理。
若想继续使用软件内置功能，尝试方案2切换分离模型，并配合方案3调整识别参数。

#4146 能兼容调用UVR5 - MDX23C-InstVoc HQ模型吗？

4 Replies

请查阅相关文档：

请查阅相关文档：

Post Your Reply

Related resource