#5176 2个问题,1,勾选了分离人声和重新嵌入背景音,但处理完的视频还是只有单独的纯配音,背景音依旧没有,2提取字幕和配音的问题,处理完的视频总是偶尔有几秒是没有声音的,原视频在这是有声音的,不知道是字幕提取有问题,还是配音没配上,这两个问题都让人

112.49* Posted at: 1 day ago

1,勾选了分离人声和重新嵌入背景音,但处理完的视频还是只有单独的纯配音,背景音依旧没有,2提取字幕和配音的问题,处理完的视频总是偶尔有几秒是没有声音的,原视频在这是有声音的,不知道是字幕提取有问题,还是配音没配上,这两个问题都让人很头疼,还请问有什么办法解决吗

1 Replies

问题 1:背景音未嵌入

原因:勾选了“分离人声背景声”但未同时勾选“嵌入背景”,或背景音分离/嵌入过程失败。

解决步骤

  1. 在主界面点击 “设置更多参数”,确认 “嵌入背景” 已勾选,并检查 “背景音量”(建议 0.8-1.0)。
  2. 如果仍无效,建议使用专业工具(如 UVR5)在 GPU 下分离人声和伴奏,然后手动放入输出目录:

    • 将分离出的伴奏文件重命名为 instrument.wav人声重命名为 vocal.wav
    • 复制到 _video_out/[视频文件名]-[格式]/ 子文件夹内(例如 _video_out/myvideo-mp4/)。
    • 回到软件直接执行,软件将跳过内置的慢速分离,直接使用这两个文件。

参考文档


问题 2:处理后的视频出现几秒无声片段

原因:语音识别(ASR)阶段 VAD 将部分语音误判为静音或非语音,导致该段未被转录,也就没有字幕和配音。

解决步骤

  1. 调整 VAD 参数:进入 菜单 -> 工具 -> 高级选项 -> 语音识别参数

    • “静音分割持续毫秒” 适当降低(例如从 500 改为 200-300),使分割更灵敏。
    • “语音阈值” 适当降低(例如从 0.5 改为 0.3),提高对弱语音的捕获。
    • 增大 “最长语音持续(秒)” 和减小 “最短语音持续(毫秒)”(如 2000ms),避免短促语音被丢弃。
  2. 更换更精准的 ASR 渠道

    • 中文视频:推荐使用 Qwen-ASR(本地)豆包语音识别大模型极速版
    • 英文视频:推荐 faster-whisper(本地) + large-v3 模型,并启用 CUDA。
  3. 开启二次识别:在主界面勾选 “二次识别”,该选项会在配音后再次对配音文件进行语音转录,生成更精准的字幕,覆盖原有时间轴。
  4. 检查配音文件完整性:如果是使用 clone 角色,确保每条字幕时长在 3-10 秒之间(高级选项中设置),否则克隆渠道可能跳过或生成静音。
  5. 查看日志:打开软件根目录下的 logs/ 文件夹,查看最新 .log 文件,搜索 warningerror 关键词,确认具体是哪一段 ASR 或配音失败。

参考文档


如果以上调整仍无法解决,请提供 logs/ 目录下最新日志文件的后 30 行报错信息,以便进一步定位。

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update. Dondate: ko-fi.com/jianchang512

Related resource