#3974 videotrans.configure._except.StopRetry: f5-tts\zhouxinxin.WAV 角色不存在

61.93* Posted at: 2 days ago 👁19

f5-tts\zhouxinxin.WAV 角色不存在:
Traceback (most recent call last):
File "videotrans\util\ListenVoice.py", line 16, in run
File "videotrans\tts\__init__.py", line 362, in run
File "videotrans\tts\_base.py", line 137, in run
File "videotrans\tts\_cosyvoice.py", line 26, in _exec
File "videotrans\tts\_base.py", line 210, in _local_mul_thread
File "videotrans\tts\_cosyvoice.py", line 157, in _item_task
File "videotrans\tts\_cosyvoice.py", line 45, in _item_task_cosyvoice2
videotrans.configure._except.StopRetry: f5-tts\zhouxinxin.WAV 角色不存在


=
system:Windows-10-10.0.19045-SP0
version:v3.98
frozen:True
language:zh
root_dir:D:/win-pyvideotrans-v3.98-0406

3 Replies

这是由于在 CosyVoice 配音渠道中,指定的参考音频文件 f5-tts\zhouxinxin.WAV 未被识别为有效的角色。

解决方案:

  1. 检查参考音频文件:确认 D:\win-pyvideotrans-v3.98-0406\f5-tts\zhouxinxin.WAV 文件是否存在且可正常播放。
  2. 检查角色选择:在配音角色下拉列表中,确保你选择了 clone 角色(用于声音克隆),而不是手动输入了 f5-tts\zhouxinxin.WAV 这个路径。
  3. 验证克隆流程:使用 CosyVoice 进行声音克隆时,正确的流程是:

    • 在配音角色中选择 clone
    • 软件会自动将当前字幕对应的原视频语音片段(时长 3-10 秒)作为参考音频,发送给 CosyVoice 服务进行克隆。
    • 不要手动指定一个外部 WAV 文件路径作为角色名。
  4. 检查 CosyVoice 服务:确保 CosyVoice 的 API 服务已正确启动,并且其 WebUI 中已成功加载了所需的模型。
  5. 调整识别参数:如果原视频语音片段过短(<3秒)或过长(>10秒),可能导致克隆失败。请进入 菜单 -> 工具 -> 高级选项 -> 语音识别参数,进行如下设置:

    • 最短语音持续毫秒 设为 3000
    • 最长语音持续秒数 设为 10
    • 选中 Whisper预分割音频?合并过短字幕到邻近

如果问题依旧,请提供 logs 文件夹中最新日志文件的底部约30行内容,以便进一步分析。

请查阅相关文档:


Application started at 2026-04-08 12:16:26

First searching GPU...
[DEBUG] 返回缓存的编解码器 Windows-264: h264_nvenc
[DEBUG] 返回缓存的编解码器 Windows-265: hevc_nvenc
NVIDIA_GPU_NUMS=1
Found 1 GPUs, cost=19s
start workers...
process_max_gpu=1
multi_gpus=False
Concurrent task_nums=1
process_max=1
start 9 jobs
ended workers
[DEBUG] [字幕配音]渠道12:共耗时:0s
[DEBUG] [字幕配音]渠道12:共耗时:0s
[DEBUG] [字幕配音]渠道12:共耗时:0s
正在等待线程 PrepareVideo 结束...
正在等待线程 SpeechToText 结束...
正在等待线程 DiarizSpeaker 结束...
正在等待线程 TranslationSRT 结束...
正在等待线程 DubbingSrt 结束...
正在等待线程 SpeechToText2 结束...
正在等待线程 AlignVieoAudioSrt 结束...
正在等待线程 AssembVideoAudioSrt 结束...
正在等待线程 TaskDone 结束...
Successfully killed ffmpeg processes using taskkill


Application started at 2026-04-08 14:52:30

First searching GPU...
[DEBUG] 返回缓存的编解码器 Windows-264: h264_nvenc
[DEBUG] 返回缓存的编解码器 Windows-265: hevc_nvenc
NVIDIA_GPU_NUMS=1
Found 1 GPUs, cost=4s
start workers...
process_max_gpu=1
multi_gpus=False
Concurrent task_nums=1
process_max=1
start 9 jobs
ended workers
[DEBUG] [字幕配音]渠道12:共耗时:0s
[DEBUG] [字幕配音]渠道12:共耗时:0s
[DEBUG] [字幕配音]渠道12:共耗时:0s
[DEBUG] [字幕配音]渠道12:共耗时:0s
[DEBUG] [字幕配音]渠道12:共耗时:0s
[DEBUG] [字幕配音]渠道12:共耗时:0s
[DEBUG] [字幕配音]渠道12:共耗时:0s
[DEBUG] [字幕配音]渠道12:共耗时:0s
[DEBUG] [字幕配音]渠道12:共耗时:0s
Successfully killed ffmpeg processes using taskkill


Application started at 2026-04-08 15:40:22

First searching GPU...
[DEBUG] 平台: Windows。正在按优先级检测最佳的 'h264' 编码器: ['nvenc', 'qsv', 'amf']
[DEBUG] 正在测试编码器是否可用: h264_nvenc...
NVIDIA_GPU_NUMS=1
Found 1 GPUs, cost=1s
start workers...
process_max_gpu=1
multi_gpus=False
Concurrent task_nums=1
process_max=1
start 9 jobs
ended workers
[DEBUG] 硬件编码器 'h264_nvenc' 可用。
[DEBUG] 已选择硬件编码器: h264_nvenc
[DEBUG] 最终确定使用的编码器: h264_nvenc
[DEBUG] 平台: Windows。正在按优先级检测最佳的 'hevc' 编码器: ['nvenc', 'qsv', 'amf']
[DEBUG] 正在测试编码器是否可用: hevc_nvenc...
[DEBUG] 硬件编码器 'hevc_nvenc' 可用。
[DEBUG] 已选择硬件编码器: hevc_nvenc
[DEBUG] 最终确定使用的编码器: hevc_nvenc
等待 uuid_signal 线程退出
正在等待线程 PrepareVideo 结束...
正在等待线程 SpeechToText 结束...
正在等待线程 DiarizSpeaker 结束...
正在等待线程 TranslationSRT 结束...
正在等待线程 DubbingSrt 结束...
正在等待线程 SpeechToText2 结束...
正在等待线程 AlignVieoAudioSrt 结束...
正在等待线程 AssembVideoAudioSrt 结束...
正在等待线程 TaskDone 结束...
Successfully killed ffmpeg processes using taskkill


Application started at 2026-04-08 16:18:46

First searching GPU...
[DEBUG] 返回缓存的编解码器 Windows-264: h264_nvenc
[DEBUG] 返回缓存的编解码器 Windows-265: hevc_nvenc
NVIDIA_GPU_NUMS=1
Found 1 GPUs, cost=1s
start workers...
process_max_gpu=1
multi_gpus=False
Concurrent task_nums=1
process_max=1
start 9 jobs
ended workers
[DEBUG] [字幕配音]渠道12:共耗时:0s
[DEBUG] [字幕配音]渠道12:共耗时:0s
[DEBUG] [字幕配音]渠道12:共耗时:0s
[DEBUG] [字幕配音]渠道12:共耗时:0s
[DEBUG] [字幕配音]渠道12:共耗时:0s

日志显示软件启动和GPU检测正常,但缺少具体的错误信息。从之前的错误 f5-tts\zhouxinxin.WAV 角色不存在 来看,问题核心是你在使用 CosyVoice 进行声音克隆时,软件尝试使用了一个名为 f5-tts\zhouxinxin.WAV 的角色,而这个角色并不存在于 CosyVoice 的可用角色列表中。

解决方案:

  1. 检查配音角色选择:在软件主界面的“配音角色”下拉列表中,确保你选择的是 clone,而不是手动输入了 f5-tts\zhouxinxin.WAV 或其他文本。CosyVoice 的克隆功能是通过 clone 角色触发的。
  2. 检查参考音频:CosyVoice 克隆功能会自动使用当前字幕对应的原视频语音片段(时长需在3-10秒之间)作为参考音频。请确保你的视频有清晰的人声,并且语音识别阶段已正确生成字幕。
  3. 调整语音识别参数:为了确保用于克隆的参考音频片段长度合适,请进入 菜单 -> 工具 -> 高级选项 -> 语音识别参数,进行如下设置:

    • 最短语音持续毫秒 设为 3000
    • 最长语音持续秒数 设为 10
    • 选中 Whisper预分割音频?合并过短字幕到邻近
  4. 验证 CosyVoice 服务:确认 CosyVoice 的本地 API 服务已正确启动(通常为 http://127.0.0.1:7860),并且其 WebUI 界面可以正常访问,模型已加载。
  5. 重新处理:完成以上设置后,在主界面左上角勾选 清理已生成,然后重新选择视频进行处理。

如果问题依旧,请提供包含具体错误堆栈的完整日志(位于软件根目录 logs 文件夹中,以当前日期命名的 .log 文件),复制错误发生前后的完整段落。

请查阅相关文档:

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource