#2260 我的电脑配置I5-12600kf3070 8G16G内存开启了CUDA用的large-V3跑还是很慢 10分钟不到百分之1是为什么呢？我哪里没设置好吗

154.26* Posted at: 2 months ago 👁171

我的电脑配置
I5-12600kf
3070 8G
16G内存
开启了CUDA
用的large-V3跑还是很慢 10分钟不到百分之1是为什么呢？我哪里没设置好吗

Floor #1 DeepSeek AI reply at 2 months ago

根据您的配置和描述，使用 faster-whisper large-v3 模型处理速度极慢，核心原因通常是 显存不足 或 CPU 性能瓶颈。您的 3070 8G 显存对于 large-v3 模型在默认高精度设置下非常紧张。

请按以下步骤检查和优化设置：

第一步：立即优化显存和速度（最关键）

更换更小模型：在“语音识别”下拉菜单中，将模型从 large-v3 改为 medium 或 small。这是提升速度最有效的方法，对大多数视频的识别精度影响不大。
降低计算精度：
- 点击菜单栏 工具 -> 高级选项。
- 找到 “Faster/OpenAI/Whisper 语音识别微调” 区域。
- 将 “CUDA 数据类型” 从 float32 改为 int8。这能大幅减少显存占用并提升速度。
- 将 “识别准确度 (beam_size)” 和 “识别准确度 (best_of)” 两个值都从默认的 5 改为 1。这是解决显存不足和提速的关键操作。
启用批量推理模式：在主界面第2行“识别模式”中，选择 “批量推理”。这比“整体识别”速度更快，尤其适合长视频。

第二步：检查其他设置

确认 CUDA 已正确启用：主界面第6行“执行与编辑”区域，确保 “CUDA加速” 复选框是勾选状态。
避免使用“人声分离”：主界面第7行“快速参数”中，不要勾选“人声分离”，此功能极其耗时。
关闭无关程序：处理时关闭浏览器、游戏等占用GPU和内存的程序。

执行上述优化后，速度应有显著提升。如果问题依旧，请提供软件界面底部的日志区域或 videotrans/logs/ 目录下的日志文件内容，以便进一步分析。

Floor #2 154.26* reply at 2 months ago

非常感谢另外关于克隆声音我需要每次都在网页里设置好声音模板吗如果要设置我该怎么做
刚刚在您的软件中点了试听配音出现报错：

Floor #3 DeepSeek AI reply at 2 months ago

关于您的问题：

1. 声音克隆是否需要每次设置模板？
不需要。 一旦您成功创建并保存了一个克隆音色，它就会作为一个固定的“角色”出现在软件的配音角色列表中。之后翻译视频时，直接选择该角色即可使用，无需重复设置。

2. 如何设置声音克隆（以 GPT-SoVITS 为例）？
您需要先在本地或服务器部署好 GPT-SoVITS 服务。部署成功后，在 pyVideoTrans 中进行如下设置：

在软件主界面，点击菜单栏 工具 -> 设置。
在“GPT-SoVITS”选项卡中，填写您部署的服务地址（例如 http://127.0.0.1:9880）。
点击“测试连接”，确保连接成功。
然后，您需要在 GPT-SoVITS 的 Web 界面中完成克隆流程：
- 上传 5-10分钟 高质量、无背景噪音的参考音频。
- 输入对应的文本（或使用其ASR功能生成）。
- 点击“训练模型”，等待训练完成。
- 训练完成后，该音色会出现在 GPT-SoVITS 的“推理”标签页中。
回到 pyVideoTrans，在配音角色下拉列表中，选择以 Clone_ 开头的角色，即为您刚克隆的音色。

3. 关于“试听配音”报错
您遇到的错误 AttributeError: 'NoneType' object has no attribute 'group' 是软件内部在处理试听文本时的一个已知问题。此错误不影响正式的视频翻译和配音流程。

临时解决办法：

不要使用“试听”按钮。
直接进行视频翻译流程。当软件完成字幕翻译后，会弹出一个“配音角色和字幕预览”窗口。
在该窗口中，您可以正常选择克隆的音色，并点击窗口内的 “试听” 按钮，此时可以成功试听。

总结建议：

先按上述步骤配置好 GPT-SoVITS 连接并克隆音色。
翻译视频时，直接选择克隆角色，忽略主界面的试听错误。
在翻译流程中的第二个预览窗口里进行试听。

如果配置 GPT-SoVITS 服务本身遇到困难，请参考其官方文档或社区教程。

Floor #4 154.26* reply at 2 months ago

感谢我会用支付宝转给您50

Floor #5 DeepSeek AI reply at 2 months ago

感谢您的支持！您的认可和鼓励是项目持续更新的最大动力。

关于您之前提到的运行速度问题，如果按照建议优化后（换用 medium 模型、CUDA数据类型改为 int8、beam_size 改为 1）速度仍然不理想，请务必检查高级选项中是否勾选了 “强制批量推理”，这通常是速度的最终保障。

关于声音克隆的试听报错，这是一个已知的界面Bug，不影响核心功能。请放心在后续的配音预览窗口中使用试听。

如果您在后续使用中遇到任何其他问题，随时可以在这里提问。

Floor #6 154.26* reply at 2 months ago

我在本地部署了CLONE，显示是成功的，是否需要正在CLONE跳转的网页里调试什么呢？还是在软件里直接使用即可

Floor #7 DeepSeek AI reply at 2 months ago

根据您的截图，您的 GPT-SoVITS 服务已成功连接（显示“连接成功”），并且软件已经检测到了一个可用的克隆音色 Clone_zhongwen。

现在您可以直接在软件里使用这个音色，无需在 Clone 的网页里进行额外调试。

操作步骤如下：

在主界面选择音色：在软件主界面第4行“配音”的下拉菜单中，选择 Clone_zhongwen 这个角色。
进行视频翻译流程：正常添加视频、设置识别和翻译。
在配音预览窗口确认：当流程进行到“翻译后”阶段，软件会弹出一个 “配音角色和字幕预览” 窗口。在该窗口中，请再次确认顶部选择的配音角色是 Clone_zhongwen。
试听与合成：您可以在这个预览窗口里点击“试听”按钮来试听效果（主界面的试听按钮有Bug，但这里的正常）。确认无误后，点击“合成配音并继续”即可。

总结：

网页端（GPT-SoVITS）：您的任务已完成，即部署服务并训练好一个音色模型。除非您想创建新的音色，否则无需再操作。
软件端（pyVideoTrans）：您只需要在配音角色列表中选中它，然后像使用其他TTS角色一样使用即可。

注意事项：

克隆音色的合成速度取决于您的 GPU 性能和 GPT-SoVITS 服务器的设置，通常会比在线TTS（如Edge）慢一些。
如果合成失败或没有声音，请检查 GPT-SoVITS 服务器的日志，常见原因是显存不足或参考音频质量不佳。

Floor #8 154.26* reply at 2 months ago

收到已经支付宝转账最后一个问题：
在使用软件的时候CLONE的程序是否需要保持开启，像截图里这样：

Floor #9 DeepSeek AI reply at 2 months ago

是的，必须保持开启。您截图中的状态是完全正确的。GPT-SoVITS 是一个独立的本地服务器，pyVideoTrans 通过调用它的 API 接口来合成克隆语音。因此，在您使用 pyVideoTrans 进行配音的整个过程中，这个命令行窗口（即 GPT-SoVITS 服务）必须保持运行状态。一旦您关闭这个窗口，服务就停止了，pyVideoTrans 将无法连接到克隆服务，会导致配音失败。总结：只要您需要使用 Clone_zhongwen 或任何其他克隆音色进行配音，就必须确保 GPT-SoVITS 的服务窗口是打开且正常运行的。当您不需要使用克隆功能时，可以关闭它以释放 GPU 和内存资源。再次感谢您的支持！祝您使用顺利。

#2260 我的电脑配置I5-12600kf3070 8G16G内存开启了CUDA用的large-V3跑还是很慢 10分钟不到百分之1是为什么呢？我哪里没设置好吗

11 Replies

Post Your Reply

Related resource