#3469 总是到声音克隆这一步就卡住了很慢

43.162* Posted at: 8 hours ago 👁27

image
image
按照教程部署了cuda,只占显存但是gpu没有参与运算,到clone这一步就基本不动了,台词显示克隆到最后一句

7 Replies

这是由于GPU未被正确调用进行声音克隆计算,导致处理速度极慢甚至卡住。

解决方案:

  1. 验证CUDA安装:在CMD中输入 nvcc -Vnvidia-smi,确认CUDA版本是否为12.8,并检查显卡驱动状态。
  2. 检查pyVideoTrans配置

    • 在软件中,确保“菜单-工具-高级选项-通用设置”中的“GPU同时任务数”已设置为1(除非显存大于20G)。
    • 确认你使用的TTS渠道(如F5-TTS、CosyVoice、Qwen-TTS等)已正确配置其API地址,并且对应的外部服务已启动且支持CUDA。
  3. 检查外部TTS服务:声音克隆通常依赖外部TTS服务(如F5-TTS、CosyVoice)。请确保你已按照教程正确部署了这些服务,并在其启动终端中确认它们是否成功加载了CUDA进行推理。如果外部服务本身未使用GPU,pyVideoTrans也无法加速。
  4. 调整克隆参数:根据知识库“最佳实践建议”第5点,如果使用clone角色,请进行以下设置以提高成功率并可能涉及GPU计算:

    • 在“高级选项-语音识别参数”中,将“最短语音持续毫秒”设为3000,“最长语音持续秒数”设为10。
    • 选中“Whisper预分割音频”以及“合并过短字幕到相邻”。
    • 在“设置更多参数”中选中“分离人声背景声”。
  5. 查看详细日志:打开软件根目录下的 logs 文件夹,查看最新的日志文件,搜索“CUDA”、“cuda”或“GPU”相关错误信息,以定位是软件本身还是外部TTS服务的问题。

请查阅相关文档:

image
显卡驱动正确,cuda版本是13.1

CUDA版本不兼容。pyVideoTrans内置支持CUDA 12.8,你安装的CUDA 13.1版本过高,可能导致GPU加速无法正常工作。解决方案:卸载当前CUDA 13.1和cuDNN。从NVIDIA官网下载并安装CUDA Toolkit 12.8版本。下载并安装与CUDA 12.8兼容的cuDNN版本(9.11及以上)。安装完成后,重启计算机。验证安装:在CMD中运行 nvcc -V 确认版本为12.8,运行 nvidia-smi 查看驱动状态。重新启动pyVideoTrans并测试。如果问题依旧,请提供软件 logs 文件夹中最新日志文件的底部约30行内容。请查阅相关文档:windows上安装CUDA12.8和cuDNN9.11

image
image
任务停止关掉软件之后怎么还占着内存和显存

这是由于外部TTS服务进程(如F5-TTS、CosyVoice等)未随主软件关闭而终止,导致持续占用GPU和内存。解决方案:手动结束进程:打开任务管理器(Ctrl+Shift+Esc),在“进程”或“详细信息”选项卡中,查找并结束与TTS服务相关的Python进程(如python.exe)或特定服务进程(如uvicorn.exe等)。检查外部服务启动方式:如果你是通过命令行或脚本独立启动TTS服务(例如F5-TTS API服务),关闭pyVideoTrans主程序不会自动停止这些服务。你需要回到启动该服务的命令行窗口,按Ctrl+C停止服务,或直接关闭该窗口。优化操作流程:建议在完成视频翻译任务后,主动关闭所有相关的外部服务进程。可以考虑编写批处理脚本,一键启动和停止所有相关服务。请查阅相关文档:使用F5-TTS配音在视频翻译软件中使用 CosyVoice3

换成cuda12.8还是一样,一共五句台词的视频clone到第5句就卡住进度条很慢,输出文件夹里有中英文字幕srt文件、背景声、人声四个文件,独显gpu只占显存使用率为0

问题核心在于外部TTS服务(如F5-TTS/CosyVoice)本身未启用GPU加速或配置有误,导致声音克隆计算在CPU上进行,速度极慢。解决方案:确认外部TTS服务已启用GPU:检查你启动F5-TTS或CosyVoice等服务的命令行窗口,查看其启动日志中是否包含“CUDA”、“GPU”或“cuda”等字样,确认其是否成功加载了CUDA。如果没有,需要在其部署环境中正确配置CUDA。检查外部TTS服务API连接:在pyVideoTrans的“配音渠道”设置中,确认你填写的API地址(如 http://127.0.0.1:7860)正确无误,并且该服务正在运行(可通过浏览器访问该地址的/docs或/页面验证)。调整pyVideoTrans高级设置:在“菜单-工具-高级选项-通用设置”中,将“GPU同时任务数”设为1。在“菜单-工具-高级选项-字幕配音调整”中,将“并发配音线程数”设为1,“配音后暂停秒”设为5或更高,以降低请求频率。查看外部TTS服务日志:直接查看F5-TTS或CosyVoice等服务自身的输出日志,寻找克隆过程中的具体报错或警告信息,这是定位问题的关键。尝试其他配音渠道:作为测试,可以暂时将“配音渠道”切换为“Edge-TTS”(免费,无需本地服务),看任务是否能顺利完成,以排除是pyVideoTrans主程序的问题。请查阅相关文档:F5-TTS api调用常见错误在视频翻译软件中使用 CosyVoice3edgeTTS 配音渠道

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource