#1666 我用的本地配音gpt-sovits 配音速度慢要调哪些参数可以加速配音

60.7* Posted at: 9 days ago 👁46

我用的本地配音gpt-sovits 配音速度慢要调哪些参数可以加速配音

5 Replies

要加速本地 GPT-SoVITS 的配音速度,请调整以下参数:

1. 增加并发线程数(最有效)

  • 在菜单栏选择 工具/选项 → 高级选项
  • 在“配音调整”区域,将“同时配音字幕数”从默认的 1 调高到 3-5
  • 注意:调高此值会显著增加显存占用,如果出现显存不足错误,请降低此数值

2. 优化 GPU 推理

  • 确保主界面第6行的 CUDA加速 已勾选
  • 在高级选项的“Faster/OpenAI/Whisper”区域,确认“CUDA数据类型”设置为 float16int8(而非 float32)

3. 检查模型配置

  • 如果使用自己训练的 GPT-SoVITS 模型,确保使用的是优化后的推理模型
  • 参考音文件不宜过长,建议使用清晰、干净的 10-30秒 音频作为参考

如果调整后仍感觉速度较慢,这是本地语音克隆模型的正常现象,因为需要为每个语音片段进行个性化生成。

“CUDA数据类型”默认是default,设置为 float16 或 int8有什么优劣

将“CUDA数据类型”从默认的 default 改为 float16int8 的优劣对比如下:

优势:

  1. 显著提升速度float16int8 的计算量远低于 float32,能大幅缩短模型推理时间。
  2. 大幅降低显存占用:这是最重要的优势。float16 的显存占用约为 float32 的一半,int8 则更少。这对于处理长视频或避免“CUDA out of memory”错误至关重要。

劣势:

  1. 精度损失float16int8 的数值表示范围比 float32 小,可能导致微小的音频质量损失或合成语音的细节不如 float32 丰富。但对于大多数应用场景,这种差异人耳难以察觉。
  2. 模型兼容性:极少数模型可能不支持低精度计算,但 GPT-SoVITS 和 Faster-Whisper 等主流模型均支持良好。

建议操作:

  1. 优先尝试设置为 float16,它在速度和精度之间取得了很好的平衡,是兼顾效率和质量的首选
  2. 如果 float16 下仍出现显存不足,或您追求极限速度且对音质细节不敏感,再尝试 int8
  3. 只有当您对音质有极致要求,且显存充足时,才保留为 default (通常等同于 float32) 或手动设置为 float32

我的显存为11g“同时配音字幕数”设置多少能既保证速度又保证稳定

对于 11GB 显存,建议将“同时配音字幕数”设置为 3 或 4。这是兼顾速度和稳定性的最佳范围。具体分析如下:设置为 3:这是最稳妥的起点。它能提供比默认值(1)快约2-3倍的配音速度,同时为 GPT-SoVITS 模型和可能的其他任务(如语音识别)预留充足的显存余量,稳定性最高。设置为 4:如果您在设置为 3 后运行稳定,且任务管理器显示显存占用未超过 80%,可以尝试提高到 4,以获得更快的处理速度。但需密切监控显存使用情况。重要注意事项:先调整数据类型:在尝试提高并发数之前,请务必先将高级选项中的“CUDA数据类型”设置为 float16。这是释放显存、为更高并发创造条件的关键步骤。监控显存:在软件运行时,打开任务管理器(Windows)或 nvidia-smi 命令(Linux),观察“专用 GPU 内存”的使用量。确保峰值使用量不超过 10GB,留有至少 1GB 的安全余量。如果出现“CUDA out of memory”错误,请立即将并发数降低 1。顺序测试:建议先从 3 开始,如果运行稳定且显存充足,再尝试提高到 4。不建议一开始就设置为 5 或更高,这极有可能导致显存溢出。

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Donate: https://ko-fi.com/jianchang512

Trending Questions