#4738 使用CosyVoice3本地配音时会有很多句子缺失或只配了一半

147.45* Posted at: 3 hours ago

使用CosyVoice3本地配音时会有很多句子缺失或只配了一半

1 Replies

你的问题很可能是由 参考音频不符合要求语音识别参数未适配声音克隆 造成的。
CosyVoice3 在使用 clone 角色时,对参考音频和输入字幕的时长有严格限制:

  1. 参考音频:必须放置在软件根目录下的 f5-tts/ 文件夹内,格式为 .wav,时长 3~10 秒。超过或不足均会导致合成失败、返回静音或直接跳过。
  2. 字幕时长:如果某句字幕对应的原始语音片段时长 < 3 秒或 > 10 秒,CosyVoice3 会因参考音频不合法而跳过该句(表现为缺失或只配一半)。
    解决方案:进入 菜单 → 工具/选项 → 高级选项 → 语音识别参数,将:

    • 最短语音持续毫秒 设为 3000
    • 最长语音持续秒数 设为 10
    • 并勾选 Whisper预分割音频?合并过短字幕到邻近
  3. 服务端状态:检查 CosyVoice3 后台是否稳定。如果服务端返回了错误(如 400 或超时),软件会跳过该句。请查看软件日志(logs/ 文件夹)中是否有 CosyVoicetts failed 字样。

请按顺序排查:

  1. 确认参考音频:在 f5-tts/ 文件夹中放入一个时长 5~8 秒、采样率 16kHz 的单声道 .wav 文件,文件名填入主界面“配音角色”对应的参考音频输入框(含后缀,如 myvoice.wav)。
  2. 调整语音参数:按上述方法修改高级选项,保存后重启软件。
  3. 检查连接:确保 CosyVoice3 服务已启动且监听端口正确(默认 http://127.0.0.1:7860)。
  4. 尝试单视频交互:只选一个视频,在配音环节弹出的校对框中查看具体哪几句失败,有助于定位问题。

请查阅相关文档:

如果仍无法解决,请提供 logs/ 下最近一次运行日志的末尾 30 行内容。

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource