#2121 GPT-SoVITS参考音频文件

172.104* Posted at: 21 days ago 👁95

GPT-SoVITS参考音频文件image

17 Replies

您截图中的“GPT-SoVITS参考音频文件”是用于GPT-SoVITS语音克隆功能的。要使用此功能,您需要:

  1. 准备参考音频:上传一段清晰、无背景噪音、包含目标说话人声音的音频文件(如WAV或MP3)。这段音频将作为克隆声音的样本。
  2. 配置GPT-SoVITS服务

    • 您需要在本地或服务器上部署GPT-SoVITS项目。
    • 启动其WebUI服务(通常运行后会在 http://127.0.0.1:9880 或类似地址提供服务)。
  3. 在pyVideoTrans中设置

    • 在软件主界面,进入“配音”设置。
    • 在“配音角色”下拉菜单中,选择以 Clone 开头的选项(例如 Clone-zhClone-en)。
    • 确保软件的网络代理设置(如有需要)指向您部署的GPT-SoVITS服务地址(例如 http://127.0.0.1:9880)。
  4. 处理流程:当您执行翻译任务时,软件会将需要合成的文本和您上传的参考音频发送到GPT-SoVITS服务,由该服务生成克隆语音。

注意:此功能依赖于外部GPT-SoVITS服务的正常运行。如果服务未启动或连接失败,配音将无法进行。

image
wav是放这里吗?3秒的文件

是的,您理解正确。您截图中的“GPT-SoVITS参考音频文件”输入框,就是用来上传您准备好的WAV格式参考音频的。

关于参考音频的几点重要说明:

  1. 音频质量:3秒的音频时间较短,可能不足以让模型充分学习到说话人的音色特征。建议使用5-15秒、发音清晰、无背景噪音的纯人声音频,效果会更好。
  2. 使用流程

    • 上传WAV文件后,在软件主界面的“配音”角色下拉菜单中,选择以 Clone- 开头的选项(例如 Clone-zh)。
    • 确保您已经按照上一轮回复的说明,在本地部署并启动了GPT-SoVITS服务,且软件能连接到该服务(通常地址是 http://127.0.0.1:9880)。
  3. 测试:您可以在上传音频并选择Clone角色后,点击“配音”行右侧的 试听 按钮,来测试克隆效果是否正常。

如果上传后试听失败或处理出错,请检查GPT-SoVITS服务是否正常运行,以及网络连接设置。

image

根据您的截图,问题在于 GPT-SoVITS 服务连接失败。错误信息显示软件无法连接到 http://127.0.0.1:9880

请按以下步骤排查:

  1. 确认 GPT-SoVITS 服务已启动

    • 您需要在本地电脑上先运行 GPT-SoVITS 项目。
    • 通常启动其 WebUI 后,命令行或终端会显示类似 Running on local URL: http://127.0.0.1:9880 的信息。
    • 请检查该服务是否真的在运行。您可以尝试在浏览器中直接访问 http://127.0.0.1:9880,如果无法打开,说明服务未启动。
  2. 在 pyVideoTrans 中正确设置地址

    • 在软件主界面,找到 第5行“同步与字幕显示”
    • “网络代理” 输入框中,填入您的 GPT-SoVITS 服务地址,例如:http://127.0.0.1:9880
    • 注意:即使服务运行在本地,也需要在此处填写地址,软件才能知道将请求发送到哪里。

总结操作顺序

  1. 启动 GPT-SoVITS 项目,确保其 WebUI 服务在 http://127.0.0.1:9880 正常运行(可在浏览器中验证)。
  2. 在 pyVideoTrans 的“网络代理”框中填入该地址。
  3. 在“配音”角色中选择 Clone-zh 等选项,然后上传您的 WAV 参考音频文件。
  4. 点击“试听”进行测试。

如果服务已启动且地址填写正确仍无法连接,请检查防火墙或安全软件是否阻止了本地程序间的网络通信。

image

根据您的截图,问题已明确:您将 GPT-SoVITS 的服务地址错误地填写在了“网络代理”位置。

“网络代理”是用于访问外部网络(如Google、OpenAI等)的代理服务器设置。而GPT-SoVITS是您本地的服务,不应该填在这里。

正确设置方法如下:

  1. 在“配音”设置中指定服务地址:

    • 在软件主界面,找到 第4行“配音”
    • 点击配音渠道(例如 GPT-SoVITS)右侧的 设置 按钮(齿轮图标)。
    • 在弹出的设置窗口中,您会看到 API地址服务地址 的输入框。
    • 在此处填入您的 GPT-SoVITS 服务地址:http://127.0.0.1:9880
  2. 清理“网络代理”设置:

    • 第5行“同步与字幕显示” 中的 “网络代理” 输入框清空(除非您确实需要用它来访问国外API)。
  3. 重新测试:

    • 确保GPT-SoVITS服务正在运行(浏览器可访问 http://127.0.0.1:9880)。
    • 在“配音”角色中选择 Clone-zh
    • 上传您的WAV参考音频文件。
    • 点击 试听 按钮。

总结关键点:

  • 网络代理 = 用于访问墙外服务的代理(如 http://127.0.0.1:7860)。
  • GPT-SoVITS API地址 = 用于访问您本地语音克隆服务的地址(如 http://127.0.0.1:9880)。这个设置在配音渠道的 设置 按钮里。

请按此修正后重试。

image

根据您的截图,问题在于您没有在“配音”设置中正确选择 GPT-SoVITS 作为配音渠道。您当前选择的是“Edge-TTS”,这是微软的在线语音合成服务,与您本地的GPT-SoVITS服务无关。请按以下步骤操作:切换配音渠道:在软件主界面,找到 第4行“配音”。点击“配音角色”左侧的下拉菜单(当前显示为“Edge-TTS”)。从下拉列表中找到并选择 GPT-SoVITS。配置GPT-SoVITS地址:选择“GPT-SoVITS”后,其右侧会出现一个 设置 按钮(齿轮图标)。点击该设置按钮。在弹出的窗口中,将 API地址 设置为您的本地服务地址:http://127.0.0.1:9880。选择克隆角色并上传音频:在“配音角色”的下拉菜单中(设置按钮旁边),选择以 Clone- 开头的选项,例如 Clone-zh。在“GPT-SoVITS参考音频文件”处,点击“选择文件”上传您的WAV音频。测试:点击 试听 按钮,检查是否能成功合成克隆语音。总结流程:配音渠道:GPT-SoVITS -> 点击设置填入地址 -> 角色选Clone-zh -> 上传参考音频 -> 试听。请先完成以上设置,再进行翻译任务。

image

很好!您现在已经正确选择了 GPT-SoVITS 作为配音渠道,并且角色选择了 Clone-zh

接下来,请按顺序完成以下两步:

  1. 设置服务地址:点击 GPT-SoVITS 右侧的 设置 按钮(齿轮图标)。

    • 在弹出的设置窗口中,找到 API地址服务地址 的输入框。
    • 填入您本地运行的 GPT-SoVITS 服务地址,通常是:http://127.0.0.1:9880
    • 点击确认保存。
  2. 上传参考音频并测试

    • “GPT-SoVITS参考音频文件” 处,点击 “选择文件”,上传您准备好的 WAV 格式音频。
    • 上传完成后,点击 试听 按钮。

如果试听成功,您将听到使用您上传的音频克隆出的声音朗读的测试句子。这表示整个 GPT-SoVITS 的配置和连接都是成功的,您可以开始使用它进行视频翻译配音了。

如果试听失败,请检查:

  • GPT-SoVITS 的 WebUI 服务是否仍在运行(浏览器访问 http://127.0.0.1:9880 是否正常)。
  • 设置中填入的 API 地址是否完全正确。

image

您的截图显示,您已经成功配置了 GPT-SoVITS 并完成了试听。这意味着:配置成功:您已正确设置了 GPT-SoVITS 的服务地址。连接正常:软件能够成功连接到您本地的 GPT-SoVITS 服务。克隆有效:GPT-SoVITS 已经根据您上传的参考音频生成了克隆语音,并且试听播放正常。可以开始使用:现在,当您执行视频翻译任务时,软件就会使用这个克隆出来的声音为翻译后的字幕进行配音。后续操作建议:您可以回到主界面,按正常流程添加视频、设置识别和翻译,然后开始执行任务。在任务执行到“配音”阶段时,软件会自动调用您已配置好的 GPT-SoVITS 和克隆声音。如果之后需要更换克隆声音,只需在“GPT-SoVITS参考音频文件”处上传新的 WAV 文件即可。

image

根据您的截图,您遇到了一个 CUDA 内存不足的错误。这是在运行 Faster-Whisper 语音识别模型时,显存(GPU内存)被耗尽的典型问题。请按以下步骤解决,建议从第一步开始尝试:降低识别模型大小(最有效):在软件主界面,第2行“语音识别”中,将“模型”从 large-v3 更换为更小的模型,例如 mediumsmallbase。模型越小,对显存的需求越低,速度也越快,但识别精度会略有下降。修改高级计算参数(如果不想换模型):点击菜单栏的 工具 -> 高级选项。在“Faster/OpenAI/Whisper语音识别”区域,进行以下调整:将 CUDA数据类型float32 改为 int8float16。这能显著减少显存占用。将 识别准确度(beam_size)识别准确度(best_of) 的值从默认的 5 改为 1。这能大幅降低计算量和显存需求。将 启用上下文感知 设置为 False。切换识别模式:在主界面第2行,将“识别模式”从 整体识别 改为 批量推理批量推理 模式对显存的峰值需求更低。终极方案:如果以上方法均无效,说明您的显卡显存确实无法承载。您可以:使用纯CPU进行识别(取消勾选“CUDA加速”),但这会非常慢。或者,改用在线语音识别API(如OpenAI Whisper API、Google Speech等),但这需要API密钥并可能产生费用。请先尝试前两步,通常能解决大部分显存不足的问题。

我是3070 8G 啊 不可能

您说得对,RTX 3070 8G 显存运行 large-v3 模型在正常情况下是足够的。出现此错误通常是因为显存被其他程序占用,或者软件在处理时出现了异常的内存累积。请按以下步骤排查和解决:检查并关闭占用显存的程序:请打开任务管理器(Ctrl+Shift+Esc),切换到“性能”选项卡,查看“GPU”部分,确认“专用GPU内存”的使用情况。关闭任何可能占用大量显存的程序,如游戏、其他AI工具、Chrome浏览器(特别是开了很多标签页时)等。确保pyVideoTrans是唯一使用GPU的程序。在pyVideoTrans中强制释放显存(关键步骤):在软件主界面,务必勾选第6行的“清理已生成”。这个选项会强制清除之前任务留下的缓存文件,这些缓存有时会锁住显存。修改高级设置以优化显存使用:点击 工具 -> 高级选项。在“Faster/OpenAI/Whisper语音识别”区域,进行以下调整(即使模型是large-v3):将 CUDA数据类型 改为 int8。这是最有效的显存节省方法,对精度影响很小。将 识别准确度(beam_size)识别准确度(best_of) 都改为 1。将 启用上下文感知 设置为 False。这些设置能显著降低单次推理的显存峰值。尝试“批量推理”模式:在主界面第2行,将“识别模式”从 整体识别 改为 批量推理。“批量推理”会将音频切块处理,对显存的瞬时需求更低。重启软件并重试:完成以上设置后,关闭pyVideoTrans软件,然后重新启动。再次尝试处理您的视频。执行顺序建议:先关闭其他GPU程序 -> 在pyVideoTrans中勾选“清理已生成” -> 修改高级选项(int8, beam_size=1等)-> 重启软件 -> 重新处理。如果问题依旧,请提供logs文件夹下的最新日志文件,以便进一步分析。

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Donate: https://ko-fi.com/jianchang512

Trending Questions