#2260 我的电脑配置I5-12600kf3070 8G16G内存开启了CUDA用的large-V3跑还是很慢 10分钟不到百分之1是为什么呢?我哪里没设置好吗

154.26* Posted at: 1 day ago 👁36

我的电脑配置
I5-12600kf
3070 8G
16G内存
开启了CUDA
用的large-V3跑还是很慢 10分钟不到百分之1是为什么呢?我哪里没设置好吗

11 Replies

根据您的配置和描述,使用 faster-whisper large-v3 模型处理速度极慢,核心原因通常是 显存不足CPU 性能瓶颈。您的 3070 8G 显存对于 large-v3 模型在默认高精度设置下非常紧张。

请按以下步骤检查和优化设置:

第一步:立即优化显存和速度(最关键)

  1. 更换更小模型:在“语音识别”下拉菜单中,将模型从 large-v3 改为 mediumsmall。这是提升速度最有效的方法,对大多数视频的识别精度影响不大。
  2. 降低计算精度

    • 点击菜单栏 工具 -> 高级选项
    • 找到 “Faster/OpenAI/Whisper 语音识别微调” 区域。
    • “CUDA 数据类型”float32 改为 int8。这能大幅减少显存占用并提升速度。
    • “识别准确度 (beam_size)”“识别准确度 (best_of)” 两个值都从默认的 5 改为 1。这是解决显存不足和提速的关键操作。
  3. 启用批量推理模式:在主界面第2行“识别模式”中,选择 “批量推理”。这比“整体识别”速度更快,尤其适合长视频。

第二步:检查其他设置

  1. 确认 CUDA 已正确启用:主界面第6行“执行与编辑”区域,确保 “CUDA加速” 复选框是勾选状态。
  2. 避免使用“人声分离”:主界面第7行“快速参数”中,不要勾选“人声分离”,此功能极其耗时。
  3. 关闭无关程序:处理时关闭浏览器、游戏等占用GPU和内存的程序。

执行上述优化后,速度应有显著提升。如果问题依旧,请提供软件界面底部的日志区域或 videotrans/logs/ 目录下的日志文件内容,以便进一步分析。

非常感谢 另外 关于克隆声音 我需要每次都在网页里设置好声音模板吗 如果要设置 我该 怎么做
刚刚在您的软件中 点了试听配音 出现报错:image

关于您的问题:

1. 声音克隆是否需要每次设置模板?
不需要。 一旦您成功创建并保存了一个克隆音色,它就会作为一个固定的“角色”出现在软件的配音角色列表中。之后翻译视频时,直接选择该角色即可使用,无需重复设置。

2. 如何设置声音克隆(以 GPT-SoVITS 为例)?
您需要先在本地或服务器部署好 GPT-SoVITS 服务。部署成功后,在 pyVideoTrans 中进行如下设置:

  1. 在软件主界面,点击菜单栏 工具 -> 设置
  2. 在“GPT-SoVITS”选项卡中,填写您部署的服务地址(例如 http://127.0.0.1:9880)。
  3. 点击“测试连接”,确保连接成功。
  4. 然后,您需要在 GPT-SoVITS 的 Web 界面中完成克隆流程:

    • 上传 5-10分钟 高质量、无背景噪音的参考音频。
    • 输入对应的文本(或使用其ASR功能生成)。
    • 点击“训练模型”,等待训练完成。
    • 训练完成后,该音色会出现在 GPT-SoVITS 的“推理”标签页中。
  5. 回到 pyVideoTrans,在配音角色下拉列表中,选择以 Clone_ 开头的角色,即为您刚克隆的音色。

3. 关于“试听配音”报错
您遇到的错误 AttributeError: 'NoneType' object has no attribute 'group' 是软件内部在处理试听文本时的一个已知问题。此错误不影响正式的视频翻译和配音流程。

临时解决办法:

  1. 不要使用“试听”按钮。
  2. 直接进行视频翻译流程。当软件完成字幕翻译后,会弹出一个“配音角色和字幕预览”窗口。
  3. 在该窗口中,您可以正常选择克隆的音色,并点击窗口内的 “试听” 按钮,此时可以成功试听。

总结建议:

  1. 先按上述步骤配置好 GPT-SoVITS 连接并克隆音色。
  2. 翻译视频时,直接选择克隆角色,忽略主界面的试听错误。
  3. 在翻译流程中的第二个预览窗口里进行试听。

如果配置 GPT-SoVITS 服务本身遇到困难,请参考其官方文档或社区教程。

感谢 我会用支付宝转给您50

感谢您的支持!您的认可和鼓励是项目持续更新的最大动力。

关于您之前提到的运行速度问题,如果按照建议优化后(换用 medium 模型、CUDA数据类型改为 int8beam_size 改为 1)速度仍然不理想,请务必检查高级选项中是否勾选了 “强制批量推理”,这通常是速度的最终保障。

关于声音克隆的试听报错,这是一个已知的界面Bug,不影响核心功能。请放心在后续的配音预览窗口中使用试听。

如果您在后续使用中遇到任何其他问题,随时可以在这里提问。

我在本地部署了CLONE,显示是成功的,是否需要正在CLONE跳转的网页里调试什么呢?还是在软件里直接使用即可
image

根据您的截图,您的 GPT-SoVITS 服务已成功连接(显示“连接成功”),并且软件已经检测到了一个可用的克隆音色 Clone_zhongwen

现在您可以直接在软件里使用这个音色,无需在 Clone 的网页里进行额外调试。

操作步骤如下:

  1. 在主界面选择音色:在软件主界面第4行“配音”的下拉菜单中,选择 Clone_zhongwen 这个角色。
  2. 进行视频翻译流程:正常添加视频、设置识别和翻译。
  3. 在配音预览窗口确认:当流程进行到“翻译后”阶段,软件会弹出一个 “配音角色和字幕预览” 窗口。在该窗口中,请再次确认顶部选择的配音角色是 Clone_zhongwen
  4. 试听与合成:您可以在这个预览窗口里点击“试听”按钮来试听效果(主界面的试听按钮有Bug,但这里的正常)。确认无误后,点击“合成配音并继续”即可。

总结

  • 网页端(GPT-SoVITS):您的任务已完成,即部署服务并训练好一个音色模型。除非您想创建新的音色,否则无需再操作。
  • 软件端(pyVideoTrans):您只需要在配音角色列表中选中它,然后像使用其他TTS角色一样使用即可。

注意事项

  • 克隆音色的合成速度取决于您的 GPU 性能和 GPT-SoVITS 服务器的设置,通常会比在线TTS(如Edge)慢一些。
  • 如果合成失败或没有声音,请检查 GPT-SoVITS 服务器的日志,常见原因是显存不足或参考音频质量不佳。

收到 已经支付宝转账 最后一个问题:
在使用软件的时候CLONE的程序是否需要保持开启,像截图里这样:
image

是的,必须保持开启。您截图中的状态是完全正确的。GPT-SoVITS 是一个独立的本地服务器,pyVideoTrans 通过调用它的 API 接口来合成克隆语音。因此,在您使用 pyVideoTrans 进行配音的整个过程中,这个命令行窗口(即 GPT-SoVITS 服务)必须保持运行状态。一旦您关闭这个窗口,服务就停止了,pyVideoTrans 将无法连接到克隆服务,会导致配音失败。总结:只要您需要使用 Clone_zhongwen 或任何其他克隆音色进行配音,就必须确保 GPT-SoVITS 的服务窗口是打开且正常运行的。当您不需要使用克隆功能时,可以关闭它以释放 GPU 和内存资源。再次感谢您的支持!祝您使用顺利。

你好,转换视频遇到新的问题。
image

clone-voice渠道不支持ms这个语言的

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Donate: https://ko-fi.com/jianchang512

Trending Questions