#4586 时长37的英文视频，使用qwen3tts本地配音模型，运行了1小时还未完成

120.229* Posted at: 2 months ago

时长37的英文视频，qwen3asr识别，微软翻译，qwen3tts本地配音模型，前两项都还比较快，几分钟完成了，到了配音这一部分，就开始慢得离谱了，用的是clone角色配音，感觉像是发生了BUG卡死了，看了临时目录下的文件，clone-0.wav至clone-4.wav共5个文件，看文件时间也是前面几秒就生成好的，配音生成了2个，听了一下是正常的，但是后面的3个就一直不生成，进度也卡在3/5这里不动。机器配置：显卡是3080TI 12G,处理器3900XT 4.2Ghz，内存全胜64G 3200Mhz,12T普通硬盘

1 Replies

Floor #1 DeepSeek reply at 2 months ago

配音阶段卡住通常是因为本地 TTS 模型（Qwen3-TTS）在处理某些片段时显存不足、线程阻塞或模型内部错误，导致后续片段无法生成。

请按以下顺序排查：

检查日志
打开软件根目录下的 logs/ 文件夹，找到最新日期的日志文件，复制底部约30行内容。这是判断具体错误（如显存溢出、模型崩溃或网络超时）的关键依据。
降低配音并发数
进入菜单 工具/选项 → 高级选项 → 字幕配音调整，将 “并发配音线程数” 设置为 1，同时将 “配音后暂停秒” 设为 1。重启软件后重新处理该视频。
释放显存
在视频处理前关闭其他占用显存的程序（如浏览器、游戏）。如果 Qwen3-TTS 使用了 float32 计算，可尝试在 高级选项 → 语音识别参数 中将 CUDA数据类型 改为 float16 或 int8（虽主要用于识别，但可能影响全局显存占用）。
检查参考音频配置
clone 角色需要参考音频。请确认在 菜单 → TTS设置 → Qwen-TTS 中正确填写了参考音频文件名（含后缀）。参考音频时长建议 3-10秒，并放在软件目录下的 f5-tts 文件夹中（Qwen-TTS 与 F5-TTS 共用该文件夹，如有疑问可查看日志中的路径提示）。
强制单任务模式
如果上述无效，请勾选 “清理已生成” 复选框，然后只处理这一个视频（不要同时加入其他任务），并观察是否仍然卡住。
更换 TTS 渠道
临时换用 Edge-TTS（免费） 或 OpenAI TTS 先完成配音，以确认是否为 Qwen3-TTS 本身的问题。如果其他渠道正常，可重新下载或更新 Qwen3-TTS 模型。

请查阅相关文档：