#3676 Loading Text2Semantic weights from GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s1bert25hz-5kh-longer-epoch=12-st

89.185* Posted at: 4 months ago

Loading Text2Semantic weights from GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s1bert25hz-5kh-longer-epoch=12-step=369668.ckpt
Loading VITS weights from GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s2G2333k.pth.
Loading BERT weights from GPT_SoVITS/pretrained_models/chinese-roberta-wwm-ext-large
Loading CNHuBERT weights from GPT_SoVITS/pretrained_models/chinese-hubert-base
INFO: Started server process [23680]
INFO: Waiting for application startup.
INFO: Application startup complete.
INFO: Uvicorn running on http://127.0.0.1:9880 (Press CTRL+C to quit)
Set seed to 736363097
并行推理模式已开启
分桶处理模式已开启
INFO: 127.0.0.1:11938 - "POST /tts HTTP/1.1" 400 Bad Request
Set seed to 1267667089
并行推理模式已开启
分桶处理模式已开启
INFO: 127.0.0.1:1795 - "POST /tts HTTP/1.1" 400 Bad Request

1 Replies

Floor #1 DeepSeek reply at 4 months ago

这是由于 GPT-SoVITS API 服务在处理请求时返回了 400 Bad Request 错误。这通常意味着请求参数不符合服务端要求，尤其是在使用“克隆”角色进行配音时，参考音频的时长可能不在 3-10 秒的推荐范围内。

解决方案：

检查参考音频时长：确保用于克隆的原始视频片段（即字幕对应的语音片段）时长在 3-10 秒之间。这是 GPT-SoVITS 等多数克隆配音渠道的常见要求。
调整语音识别参数：在 pyVideoTrans 的 菜单 -> 工具 -> 高级选项 -> 语音识别参数 中，进行如下设置：
- 将 最短语音持续毫秒 设为 3000。
- 将 最长语音持续秒数 设为 10。
- 选中 Whisper预分割音频?。
- 选中 合并过短字幕到邻近。
检查 GPT-SoVITS 服务：确认 GPT-SoVITS 的 API 服务（通常运行在 http://127.0.0.1:9880）已正确启动且运行正常。日志显示服务已启动，但请求被拒绝。
检查 pyVideoTrans 配置：在 pyVideoTrans 的 菜单 -> 翻译设置 -> GPT-SoVITS 设置 中，确认 API 地址（如 http://127.0.0.1:9880）填写正确。
分离人声：如果使用克隆角色，建议同时勾选主界面“设置更多参数...”中的 分离人声背景声 选项，以提高克隆质量。

请查阅相关文档：