#2974 使用 qwen3 tts 开启 gpu 模式后 配音时间特别久

205.198* Posted at: 18 days ago 👁51

使用 qwen3 tts 开启 gpu 模式后 配音时间特别久

1 Replies

这是由于 Qwen3-TTS 本地模型在 GPU 模式下,首次推理或特定配置下可能未充分利用 GPU 资源或存在性能瓶颈导致的。

解决方案:

  1. 确认模型与启动方式:确保你启动的是 Qwen3-TTS 的 语音克隆模型 (Qwen3-TTS-12Hz-0.6B-BaseQwen3-TTS-12Hz-1.7B-Base) 或 自定义音色模型 (Qwen3-TTS-12Hz-0.6B-CustomVoiceQwen3-TTS-12Hz-1.7B-CustomVoice),并且通过其 WebUI 正确启动了 API 服务。pyVideoTrans 不支持 VoiceDesign 模型。
  2. 检查 pyVideoTrans 配置:在 pyVideoTrans 的“TTS设置” -> “Qwen-tts(本地)”中,确认 API 地址(如 http://127.0.0.1:8000)填写正确,并且“使用 GPU”选项已勾选。
  3. 监控 GPU 使用率:在任务管理器或 nvidia-smi 命令中观察配音时 GPU 的利用率。如果利用率很低(例如低于20%),可能模型并未在 GPU 上高效运行。
  4. 调整并发与间隔:在 pyVideoTrans 的“高级选项”中,尝试将“同时配音线程数”设置为 1,并将“配音后暂停秒数”适当增加(如5秒),以减少对 TTS 服务的并发压力,避免排队或错误重试导致的延迟。
  5. 检查 Qwen3-TTS 服务日志:查看你启动 Qwen3-TTS WebUI/API 服务的终端窗口,是否有报错或警告信息,特别是关于 CUDA、显存或模型加载的提示。
  6. 验证 CUDA 环境:确保你的系统已正确安装 CUDA 12.8 和 cuDNN 9.x,并且环境变量配置正确。在 CMD 中运行 nvcc -Vnvidia-smi 进行验证。

如果以上步骤无法解决,请提供:

  • pyVideoTrans 软件 logs/ 目录下最新日志文件的底部约30行内容。
  • 启动 Qwen3-TTS 服务的终端输出的关键错误或警告信息。

请查阅相关文档:

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource