我明白了。您双击 sp.exe 启动后,软件自动在浏览器中打开了 WebUI 界面,而不是显示传统的桌面窗口。这是软件的一种部署方式。
要解决您的问题(找到 GPT-SoVITS 配置和克隆角色),您需要在 这个 WebUI 界面内 进行操作,但路径和桌面版略有不同。请按以下步骤:
第一步:在 WebUI 中配置 GPT-SoVITS
- 在您打开的浏览器页面(即 pyVideoTrans WebUI)中,点击左上角的 菜单 按钮(三条横线)。
- 在下拉菜单中,选择 设置。
在设置页面中,您需要找到 GPT-SoVITS 相关的配置项。它可能位于“语音合成”或“高级设置”部分。请仔细查找以下字段:
- GPT-SoVITS API 地址 或 服务地址
- 将其设置为
http://127.0.0.1:9880 - 寻找 测试 或 连接 按钮并点击。
- 保存设置。
第二步:在主界面使用克隆角色
- 返回 WebUI 的主界面(翻译任务页面)。
- 在主界面中,您需要找到 配音 或 语音合成 相关的设置区域。它可能被折叠或归类在某个标签页下(例如“高级选项”或“第二步:配音”)。
- 在该区域,寻找 配音角色、声音 或 TTS 模型 的下拉选择框。
- 点击下拉框,查找以 “克隆-” 开头的选项(如“克隆-中文”、“克隆-英文”)。这些就是无需上传参考音频的通用音色。
第三步:启用多角色匹配
- 在主界面,找到 语音识别 或 ASR 设置区域。
- 在该区域内,寻找并勾选 识别说话人 或 Speaker Diarization 选项。
- 处理视频后,在后续的编辑界面中,您应该可以为检测到的不同说话人(SPEAER_00, SPEAKER_01)分配不同的“克隆-”角色。
关键点:
- 您看到的是 WebUI 版本,所有功能都在这个浏览器页面内完成。
- 配置入口在左上角 菜单 -> 设置 中。
- 功能使用在主界面的各个设置区域里,请仔细查找“配音”和“识别说话人”相关选项。
如果按照以上步骤在 WebUI 的设置中确实找不到 GPT-SoVITS 的配置项,或者在下拉框中没有“克隆-”角色,那可能意味着这个 WebUI 版本编译时未包含 GPT-SoVITS 模块。
在这种情况下,您可以尝试:
- 使用 工具箱 中的功能:WebUI 通常有“工具箱”或“独立工具”页面,里面可能有“字幕多角色配音”工具,或许能提供更多选项。
- 考虑使用 预打包的桌面版:从官网下载页面,选择明确标注为“Windows 桌面版”或“预打包版(sp.exe)”的压缩包,它应该启动的是传统桌面窗口,功能更完整。
请先在当前 WebUI 的 菜单 -> 设置 中仔细查找 GPT-SoVITS 配置项。