#2121 GPT-SoVITS参考音频文件

172.104* Posted at: 2 months ago 👁243

GPT-SoVITS参考音频文件

Floor #1 DeepSeek AI reply at 2 months ago

您截图中的“GPT-SoVITS参考音频文件”是用于GPT-SoVITS语音克隆功能的。要使用此功能，您需要：

准备参考音频：上传一段清晰、无背景噪音、包含目标说话人声音的音频文件（如WAV或MP3）。这段音频将作为克隆声音的样本。
配置GPT-SoVITS服务：
- 您需要在本地或服务器上部署GPT-SoVITS项目。
- 启动其WebUI服务（通常运行后会在 http://127.0.0.1:9880 或类似地址提供服务）。
在pyVideoTrans中设置：
- 在软件主界面，进入“配音”设置。
- 在“配音角色”下拉菜单中，选择以 Clone 开头的选项（例如 Clone-zh 或 Clone-en）。
- 确保软件的网络代理设置（如有需要）指向您部署的GPT-SoVITS服务地址（例如 http://127.0.0.1:9880）。
处理流程：当您执行翻译任务时，软件会将需要合成的文本和您上传的参考音频发送到GPT-SoVITS服务，由该服务生成克隆语音。

注意：此功能依赖于外部GPT-SoVITS服务的正常运行。如果服务未启动或连接失败，配音将无法进行。

Floor #2 172.104* reply at 2 months ago

wav是放这里吗?3秒的文件

Floor #3 DeepSeek AI reply at 2 months ago

是的，您理解正确。您截图中的“GPT-SoVITS参考音频文件”输入框，就是用来上传您准备好的WAV格式参考音频的。

关于参考音频的几点重要说明：

音频质量：3秒的音频时间较短，可能不足以让模型充分学习到说话人的音色特征。建议使用5-15秒、发音清晰、无背景噪音的纯人声音频，效果会更好。
使用流程：
- 上传WAV文件后，在软件主界面的“配音”角色下拉菜单中，选择以 Clone- 开头的选项（例如 Clone-zh）。
- 确保您已经按照上一轮回复的说明，在本地部署并启动了GPT-SoVITS服务，且软件能连接到该服务（通常地址是 http://127.0.0.1:9880）。
测试：您可以在上传音频并选择Clone角色后，点击“配音”行右侧的试听按钮，来测试克隆效果是否正常。

如果上传后试听失败或处理出错，请检查GPT-SoVITS服务是否正常运行，以及网络连接设置。

Floor #4 120.41* reply at 2 months ago

Floor #5 DeepSeek AI reply at 2 months ago

根据您的截图，问题在于 GPT-SoVITS 服务连接失败。错误信息显示软件无法连接到 http://127.0.0.1:9880。

请按以下步骤排查：

确认 GPT-SoVITS 服务已启动：
- 您需要在本地电脑上先运行 GPT-SoVITS 项目。
- 通常启动其 WebUI 后，命令行或终端会显示类似 Running on local URL: http://127.0.0.1:9880 的信息。
- 请检查该服务是否真的在运行。您可以尝试在浏览器中直接访问 http://127.0.0.1:9880，如果无法打开，说明服务未启动。
在 pyVideoTrans 中正确设置地址：
- 在软件主界面，找到 第5行“同步与字幕显示”。
- 在 “网络代理” 输入框中，填入您的 GPT-SoVITS 服务地址，例如：http://127.0.0.1:9880。
- 注意：即使服务运行在本地，也需要在此处填写地址，软件才能知道将请求发送到哪里。

总结操作顺序：

启动 GPT-SoVITS 项目，确保其 WebUI 服务在 http://127.0.0.1:9880 正常运行（可在浏览器中验证）。
在 pyVideoTrans 的“网络代理”框中填入该地址。
在“配音”角色中选择 Clone-zh 等选项，然后上传您的 WAV 参考音频文件。
点击“试听”进行测试。

如果服务已启动且地址填写正确仍无法连接，请检查防火墙或安全软件是否阻止了本地程序间的网络通信。

Floor #6 120.41* reply at 2 months ago

Floor #7 DeepSeek AI reply at 2 months ago

根据您的截图，问题已明确：您将 GPT-SoVITS 的服务地址错误地填写在了“网络代理”位置。

“网络代理”是用于访问外部网络（如Google、OpenAI等）的代理服务器设置。而GPT-SoVITS是您本地的服务，不应该填在这里。

正确设置方法如下：

在“配音”设置中指定服务地址：
- 在软件主界面，找到 第4行“配音”。
- 点击配音渠道（例如 GPT-SoVITS）右侧的设置按钮（齿轮图标）。
- 在弹出的设置窗口中，您会看到 API地址 或 服务地址 的输入框。
- 在此处填入您的 GPT-SoVITS 服务地址：http://127.0.0.1:9880。
清理“网络代理”设置：
- 将 第5行“同步与字幕显示” 中的 “网络代理” 输入框清空（除非您确实需要用它来访问国外API）。
重新测试：
- 确保GPT-SoVITS服务正在运行（浏览器可访问 http://127.0.0.1:9880）。
- 在“配音”角色中选择 Clone-zh。
- 上传您的WAV参考音频文件。
- 点击试听按钮。

总结关键点：

网络代理 = 用于访问墙外服务的代理（如 http://127.0.0.1:7860）。
GPT-SoVITS API地址 = 用于访问您本地语音克隆服务的地址（如 http://127.0.0.1:9880）。这个设置在配音渠道的设置按钮里。

请按此修正后重试。

Floor #8 120.41* reply at 2 months ago

Floor #9 DeepSeek AI reply at 2 months ago

根据您的截图，问题在于您没有在“配音”设置中正确选择 GPT-SoVITS 作为配音渠道。您当前选择的是“Edge-TTS”，这是微软的在线语音合成服务，与您本地的GPT-SoVITS服务无关。请按以下步骤操作：切换配音渠道：在软件主界面，找到第4行“配音”。点击“配音角色”左侧的下拉菜单（当前显示为“Edge-TTS”）。从下拉列表中找到并选择 GPT-SoVITS。配置GPT-SoVITS地址：选择“GPT-SoVITS”后，其右侧会出现一个设置按钮（齿轮图标）。点击该设置按钮。在弹出的窗口中，将 API地址设置为您的本地服务地址：http://127.0.0.1:9880。选择克隆角色并上传音频：在“配音角色”的下拉菜单中（设置按钮旁边），选择以 Clone- 开头的选项，例如 Clone-zh。在“GPT-SoVITS参考音频文件”处，点击“选择文件”上传您的WAV音频。测试：点击试听按钮，检查是否能成功合成克隆语音。总结流程：配音渠道：GPT-SoVITS -> 点击设置填入地址 -> 角色选Clone-zh -> 上传参考音频 -> 试听。请先完成以上设置，再进行翻译任务。

Floor #10 120.41* reply at 2 months ago

Floor #11 DeepSeek AI reply at 2 months ago

很好！您现在已经正确选择了 GPT-SoVITS 作为配音渠道，并且角色选择了 Clone-zh。

接下来，请按顺序完成以下两步：

设置服务地址：点击 GPT-SoVITS 右侧的设置按钮（齿轮图标）。
- 在弹出的设置窗口中，找到 API地址 或 服务地址 的输入框。
- 填入您本地运行的 GPT-SoVITS 服务地址，通常是：http://127.0.0.1:9880
- 点击确认保存。
上传参考音频并测试：
- 在 “GPT-SoVITS参考音频文件” 处，点击 “选择文件”，上传您准备好的 WAV 格式音频。
- 上传完成后，点击试听按钮。

如果试听成功，您将听到使用您上传的音频克隆出的声音朗读的测试句子。这表示整个 GPT-SoVITS 的配置和连接都是成功的，您可以开始使用它进行视频翻译配音了。

如果试听失败，请检查：

GPT-SoVITS 的 WebUI 服务是否仍在运行（浏览器访问 http://127.0.0.1:9880 是否正常）。
设置中填入的 API 地址是否完全正确。

Floor #12 120.41* reply at 2 months ago

Floor #13 DeepSeek AI reply at 2 months ago

您的截图显示，您已经成功配置了 GPT-SoVITS 并完成了试听。这意味着：配置成功：您已正确设置了 GPT-SoVITS 的服务地址。连接正常：软件能够成功连接到您本地的 GPT-SoVITS 服务。克隆有效：GPT-SoVITS 已经根据您上传的参考音频生成了克隆语音，并且试听播放正常。可以开始使用：现在，当您执行视频翻译任务时，软件就会使用这个克隆出来的声音为翻译后的字幕进行配音。后续操作建议：您可以回到主界面，按正常流程添加视频、设置识别和翻译，然后开始执行任务。在任务执行到“配音”阶段时，软件会自动调用您已配置好的 GPT-SoVITS 和克隆声音。如果之后需要更换克隆声音，只需在“GPT-SoVITS参考音频文件”处上传新的 WAV 文件即可。

Floor #14 120.41* reply at 2 months ago

Floor #15 DeepSeek AI reply at 2 months ago

根据您的截图，您遇到了一个 CUDA 内存不足的错误。这是在运行 Faster-Whisper 语音识别模型时，显存（GPU内存）被耗尽的典型问题。请按以下步骤解决，建议从第一步开始尝试：降低识别模型大小（最有效）：在软件主界面，第2行“语音识别”中，将“模型”从 large-v3 更换为更小的模型，例如 medium、small 或 base。模型越小，对显存的需求越低，速度也越快，但识别精度会略有下降。修改高级计算参数（如果不想换模型）：点击菜单栏的 工具 -> 高级选项。在“Faster/OpenAI/Whisper语音识别”区域，进行以下调整：将 CUDA数据类型 从 float32 改为 int8 或 float16。这能显著减少显存占用。将 识别准确度(beam_size) 和 识别准确度(best_of) 的值从默认的 5 改为 1。这能大幅降低计算量和显存需求。将 启用上下文感知 设置为 False。切换识别模式：在主界面第2行，将“识别模式”从 整体识别 改为 批量推理。批量推理 模式对显存的峰值需求更低。终极方案：如果以上方法均无效，说明您的显卡显存确实无法承载。您可以：使用纯CPU进行识别（取消勾选“CUDA加速”），但这会非常慢。或者，改用在线语音识别API（如OpenAI Whisper API、Google Speech等），但这需要API密钥并可能产生费用。请先尝试前两步，通常能解决大部分显存不足的问题。

Floor #16 120.41* reply at 2 months ago

我是3070 8G 啊不可能

Floor #17 DeepSeek AI reply at 2 months ago

您说得对，RTX 3070 8G 显存运行 large-v3 模型在正常情况下是足够的。出现此错误通常是因为显存被其他程序占用，或者软件在处理时出现了异常的内存累积。请按以下步骤排查和解决：检查并关闭占用显存的程序：请打开任务管理器（Ctrl+Shift+Esc），切换到“性能”选项卡，查看“GPU”部分，确认“专用GPU内存”的使用情况。关闭任何可能占用大量显存的程序，如游戏、其他AI工具、Chrome浏览器（特别是开了很多标签页时）等。确保pyVideoTrans是唯一使用GPU的程序。在pyVideoTrans中强制释放显存（关键步骤）：在软件主界面，务必勾选第6行的“清理已生成”。这个选项会强制清除之前任务留下的缓存文件，这些缓存有时会锁住显存。修改高级设置以优化显存使用：点击 工具 -> 高级选项。在“Faster/OpenAI/Whisper语音识别”区域，进行以下调整（即使模型是large-v3）：将 CUDA数据类型 改为 int8。这是最有效的显存节省方法，对精度影响很小。将 识别准确度(beam_size) 和 识别准确度(best_of) 都改为 1。将 启用上下文感知 设置为 False。这些设置能显著降低单次推理的显存峰值。尝试“批量推理”模式：在主界面第2行，将“识别模式”从 整体识别 改为 批量推理。“批量推理”会将音频切块处理，对显存的瞬时需求更低。重启软件并重试：完成以上设置后，关闭pyVideoTrans软件，然后重新启动。再次尝试处理您的视频。执行顺序建议：先关闭其他GPU程序 -> 在pyVideoTrans中勾选“清理已生成” -> 修改高级选项（int8, beam_size=1等）-> 重启软件 -> 重新处理。如果问题依旧，请提供logs文件夹下的最新日志文件，以便进一步分析。

#2121 GPT-SoVITS参考音频文件

17 Replies

Post Your Reply

Related resource