#5176 2个问题，1，勾选了分离人声和重新嵌入背景音，但处理完的视频还是只有单独的纯配音，背景音依旧没有，2提取字幕和配音的问题，处理完的视频总是偶尔有几秒是没有声音的，原视频在这是有声音的，不知道是字幕提取有问题，还是配音没配上，这两个问题都让人

112.49* Posted at: 1 month ago

1，勾选了分离人声和重新嵌入背景音，但处理完的视频还是只有单独的纯配音，背景音依旧没有，2提取字幕和配音的问题，处理完的视频总是偶尔有几秒是没有声音的，原视频在这是有声音的，不知道是字幕提取有问题，还是配音没配上，这两个问题都让人很头疼，还请问有什么办法解决吗

1 Replies

Floor #1 DeepSeek reply at 1 month ago

问题 1：背景音未嵌入

原因：勾选了“分离人声背景声”但未同时勾选“嵌入背景”，或背景音分离/嵌入过程失败。

解决步骤：

在主界面点击 “设置更多参数”，确认 “嵌入背景” 已勾选，并检查 “背景音量”（建议 0.8-1.0）。
如果仍无效，建议使用专业工具（如 UVR5）在 GPU 下分离人声和伴奏，然后手动放入输出目录：
- 将分离出的伴奏文件重命名为 instrument.wav，人声重命名为 vocal.wav。
- 复制到 _video_out/[视频文件名]-[格式]/ 子文件夹内（例如 _video_out/myvideo-mp4/）。
- 回到软件直接执行，软件将跳过内置的慢速分离，直接使用这两个文件。

参考文档：

导入本地已有的字幕或人声

问题 2：处理后的视频出现几秒无声片段

原因：语音识别（ASR）阶段 VAD 将部分语音误判为静音或非语音，导致该段未被转录，也就没有字幕和配音。

解决步骤：

调整 VAD 参数：进入 菜单 -> 工具 -> 高级选项 -> 语音识别参数：
- 将 “静音分割持续毫秒” 适当降低（例如从 500 改为 200-300），使分割更灵敏。
- 将 “语音阈值” 适当降低（例如从 0.5 改为 0.3），提高对弱语音的捕获。
- 增大 “最长语音持续(秒)” 和减小 “最短语音持续(毫秒)”（如 2000ms），避免短促语音被丢弃。
更换更精准的 ASR 渠道：
- 中文视频：推荐使用 Qwen-ASR(本地) 或 豆包语音识别大模型极速版。
- 英文视频：推荐 faster-whisper(本地) + large-v3 模型，并启用 CUDA。
开启二次识别：在主界面勾选 “二次识别”，该选项会在配音后再次对配音文件进行语音转录，生成更精准的字幕，覆盖原有时间轴。
检查配音文件完整性：如果是使用 clone 角色，确保每条字幕时长在 3-10 秒之间（高级选项中设置），否则克隆渠道可能跳过或生成静音。
查看日志：打开软件根目录下的 logs/ 文件夹，查看最新 .log 文件，搜索 warning 或 error 关键词，确认具体是哪一段 ASR 或配音失败。

参考文档：

如果以上调整仍无法解决，请提供 logs/ 目录下最新日志文件的后 30 行报错信息，以便进一步定位。

Post Your Reply

Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Dondate via ko-fi.com

Dondate via PayPal

1 Replies

问题 1：背景音未嵌入

问题 2：处理后的视频出现几秒无声片段

Post Your Reply

Related resource