#1736 有没有不需要上传参考声音，即可自动克隆声音翻译並支持多角色自动匹配的方法?

118.167* Posted at: 7 months ago

有没有不需要上传参考声音，即可自动克隆声音翻译並支持多角色自动匹配的方法?

Floor #1 DeepSeek reply at 7 months ago

是的，pyVideoTrans 支持无需上传参考声音的自动语音克隆和多角色匹配。主要方法如下：

使用预训练的多语言/多角色模型：
- GPT-SoVITS (本地部署)：在软件中配置 GPT-SoVITS 服务地址后，可以直接选择其内置的、无需参考音频的“克隆角色”（如 克隆-中文、克隆-英文 等）进行配音。这些角色基于通用模型生成，并非克隆特定人声。
- F5-TTS / CosyVoice / ChatterBox：这些是同样集成在软件中的本地 TTS 模型，通常内置多种风格的音色（如男声、女声、播音腔等），可以直接选择使用，无需克隆。
实现“多角色自动匹配”：
- 此功能需要语音识别时区分说话人。
- 操作步骤：
  a. 在主界面 第2行（语音识别），勾选 识别说话人 选项（首次使用需下载模型）。
  b. 识别完成后，在字幕编辑界面，系统会为不同说话人分配标签（如 SPEAKER_00, SPEAKER_01）。
  c. 进入配音预览界面，你可以为每个说话人标签单独指定一个配音角色（例如，SPEAKER_00 用“克隆-男声”，SPEAKER_01 用“克隆-女声”）。
- 注意：目前软件不能根据语音内容自动分配角色，需要用户在配音预览界面手动为每个检测到的说话人选择音色。

总结方案：使用 GPT-SoVITS 等本地模型的“克隆角色”或 F5-TTS 等内置音色，结合 “识别说话人” 功能，即可实现无需上传参考音频、并为不同角色分配不同音色的翻译配音流程。

Floor #2 118.167* reply at 7 months ago

他要求我上傳參考聲音

Floor #3 DeepSeek reply at 7 months ago

您看到的是 GPT-SoVITS 的 WebUI 界面，它要求上传参考音频进行声音克隆。要在 pyVideoTrans 中实现 无需上传参考声音的自动克隆和多角色匹配，您需要：

1. 正确配置 GPT-SoVITS 服务

确保 GPT-SoVITS 服务已启动，并且其 API 地址（通常是 http://127.0.0.1:9880）已正确填入 pyVideoTrans 的 菜单 -> 工具 -> 设置 -> GPT-SoVITS 中。
关键点：在 GPT-SoVITS 的 WebUI 中，您需要先训练好一个通用的基础模型，或者直接使用其提供的、无需参考音频的“克隆”功能（如果模型支持）。

2. 在 pyVideoTrans 中选择“克隆角色”

配置好服务后，在 pyVideoTrans 主界面 第4行（配音） 的“配音角色”下拉列表中，应该会出现以 “克隆-” 开头的角色选项（例如“克隆-中文”、“克隆-英文”）。
这些“克隆角色”就是无需上传参考音频即可使用的通用合成音色。

3. 实现多角色匹配

在 第2行（语音识别），勾选 “识别说话人”。
视频处理到配音阶段时，会进入字幕编辑界面。系统会为不同说话人打上 SPEAKER_00、SPEAKER_01 等标签。
在接下来的配音预览界面，您可以手动为每个 SPEAKER_ 标签选择不同的“克隆-xxx”角色，从而实现多角色配音。

简单来说：您无需在 pyVideoTrans 里上传参考音频。您需要做的是：

在后台准备好 GPT-SoVITS 服务并训练好基础模型。
在 pyVideoTrans 中正确连接该服务。
直接选用软件里出现的“克隆-”角色，并结合“识别说话人”功能来分配音色。

如果“配音角色”下拉列表中没有出现“克隆-”选项，说明 GPT-SoVITS 服务连接或模型配置有问题，请检查服务地址和模型状态。

Floor #4 118.167* reply at 7 months ago

ㄕ
是我的版本不支持嗎?找不到克隆的地方一直要我上傳參考聲音

Floor #5 DeepSeek reply at 7 months ago

您的 pyVideoTrans 版本（v3.86）是支持 GPT-SoVITS 的。问题在于您当前操作的界面是 GPT-SoVITS 独立的 WebUI，而不是在 pyVideoTrans 软件内部。

要实现“无需上传参考声音的自动克隆”，您需要 在 pyVideoTrans 软件内部 完成配置和操作。请严格按以下步骤进行：

第一步：在 pyVideoTrans 中配置 GPT-SoVITS 服务

确保 GPT-SoVITS 服务已在后台运行（您截图中的 WebUI 已打开，说明服务已启动）。
打开 pyVideoTrans 主软件。
点击顶部菜单栏的工具 -> 设置。
在设置窗口中找到 GPT-SoVITS 部分。
将 API地址 设置为 http://127.0.0.1:9880（这是 GPT-SoVITS 默认地址，如果您的端口不同请修改）。
点击 测试连接，确保显示连接成功。
点击保存。

第二步：在 pyVideoTrans 中选择克隆角色

回到 pyVideoTrans 主界面。
在 第4行（配音） 的 “配音角色” 下拉列表中，您应该能看到以 “克隆-” 开头的选项（例如“克隆-中文”、“克隆-英文”等）。
这些“克隆-”角色就是无需上传参考音频即可使用的通用音色。 直接选择它们即可。

第三步：启用多角色匹配

在 第2行（语音识别），勾选 “识别说话人”。
正常处理视频。当流程进行到“翻译后”阶段，会弹出配音预览/字幕编辑窗口。
在该窗口中，系统会显示检测到的不同说话人（如 SPEAKER_00, SPEAKER_01）。
您可以 手动为每个 SPEAKER 标签 分配一个不同的“克隆-”角色。

核心要点：

您不需要在 GPT-SoVITS 的 WebUI 里上传任何东西。 那个界面是用于训练和精细调整特定人声模型的。
您只需要在 pyVideoTrans 软件内部 连接 GPT-SoVITS 服务，并直接使用它提供的 “克隆-” 预设角色。
如果配置后，pyVideoTrans 的“配音角色”下拉列表里仍然没有“克隆-”选项，可能是 GPT-SoVITS 的基础模型未正确加载或版本不兼容。请检查 GPT-SoVITS 的日志，确保其通用模型已成功加载。

Floor #6 118.167* reply at 7 months ago

我的GPT-SoVITS頁面沒有測試連接按鈕，點選測試顯示要我上傳參考聲音
左側第四行也沒有配音按鈕或頁面

Floor #7 DeepSeek reply at 7 months ago

我理解您的问题了。您当前看到的界面是 GPT-SoVITS 的独立 WebUI，而不是 pyVideoTrans 软件本身。您需要操作的是 pyVideoTrans 主程序。

请按以下步骤操作：

打开正确的软件：
- 关闭您截图中的 GPT-SoVITS WebUI 浏览器页面。
- 在您的电脑上找到并打开 pyVideoTrans 软件（Windows 用户是 sp.exe，Mac/Linux 用户运行 uv run sp.py）。
在 pyVideoTrans 软件内进行配置：
- 打开 pyVideoTrans 软件后，您会看到它的主界面（有8行功能区）。
- 点击软件顶部菜单栏的工具 -> 设置。
- 在打开的设置窗口中，找到 GPT-SoVITS 部分。
- 将 API地址 设置为 http://127.0.0.1:9880。
- 这里应该会有一个 测试连接 按钮，点击它。如果连接成功，会提示“连接成功”。
- 点击保存。
回到主界面使用功能：
- 关闭设置窗口，回到 pyVideoTrans 主界面。
- 主界面的 第4行 就是 “配音” 设置行。您会看到 “配音角色” 的下拉框。
- 点击下拉框，您应该能看到以 “克隆-” 开头的选项（例如“克隆-中文”）。这些就是您要找的、无需上传参考音频的通用克隆音色。
- 同时，在 第2行（语音识别），勾选 “识别说话人”，以便后续为不同角色分配不同音色。

总结一下：

GPT-SoVITS WebUI (您截图的那个)：是后端服务的管理界面，用于训练模型。您不需要在这里操作。
pyVideoTrans 主程序：是前端应用，您所有的工作（翻译、配音）都在这里完成。您需要在这里配置 GPT-SoVITS 的地址，并直接选用它提供的“克隆-”角色。

请您先打开 pyVideoTrans 软件，然后按照上述步骤操作。如果打开后找不到界面或按钮，请告诉我您看到的 pyVideoTrans 软件具体是什么样子。

Floor #8 118.167* reply at 7 months ago

左側沒有配音

沒有測試連接按鈕

Floor #9 DeepSeek reply at 7 months ago

我看到了问题所在。您当前打开的是 pyVideoTrans 的 WebUI 版本（通过浏览器访问），而不是 桌面应用程序。WebUI 版本的功能和界面与桌面版不同，它可能不包含完整的 GPT-SoVITS 集成和“克隆角色”功能。

要使用“无需上传参考声音的自动克隆和多角色匹配”功能，您必须使用 pyVideoTrans 的桌面应用程序。

解决方案：

关闭浏览器，停止访问 WebUI。
找到并运行桌面版应用程序：
- Windows 用户：找到您解压 pyVideoTrans 的文件夹（例如 D:\videotrans），双击里面的 sp.exe 文件启动。
- Mac/Linux 用户：在终端中，进入 pyVideoTrans 项目目录，运行 uv run sp.py。
在桌面版软件中配置：
- 启动后，您会看到一个独立的软件窗口，而不是浏览器页面。
- 点击顶部菜单栏的 工具 -> 设置。
- 在设置窗口中，您会找到 GPT-SoVITS 部分，里面有 API地址 输入框和 测试连接 按钮。
- 将地址设置为 http://127.0.0.1:9880，点击测试，保存。
使用功能：
- 回到主界面，您会看到清晰的 8行功能区。第4行就是“配音”，那里有“配音角色”下拉框，您就能找到“克隆-”开头的选项了。
- 在第2行勾选“识别说话人”。

简单来说：您用错了软件界面。 您需要运行的是 sp.exe（桌面程序），而不是通过浏览器访问的 Web 服务。桌面版才具备完整的功能集成。请先尝试运行桌面版程序。

Floor #10 118.167* reply at 7 months ago

我就是双击sp.exe 文件启动

Floor #11 DeepSeek reply at 7 months ago

我明白了。您双击 sp.exe 启动后，软件自动在浏览器中打开了 WebUI 界面，而不是显示传统的桌面窗口。这是软件的一种部署方式。

要解决您的问题（找到 GPT-SoVITS 配置和克隆角色），您需要在 这个 WebUI 界面内 进行操作，但路径和桌面版略有不同。请按以下步骤：

第一步：在 WebUI 中配置 GPT-SoVITS

在您打开的浏览器页面（即 pyVideoTrans WebUI）中，点击左上角的菜单按钮（三条横线）。
在下拉菜单中，选择设置。
在设置页面中，您需要找到 GPT-SoVITS 相关的配置项。它可能位于“语音合成”或“高级设置”部分。请仔细查找以下字段：
- GPT-SoVITS API 地址 或 服务地址
- 将其设置为 http://127.0.0.1:9880
- 寻找测试或连接按钮并点击。
保存设置。

第二步：在主界面使用克隆角色

返回 WebUI 的主界面（翻译任务页面）。
在主界面中，您需要找到配音或 语音合成 相关的设置区域。它可能被折叠或归类在某个标签页下（例如“高级选项”或“第二步：配音”）。
在该区域，寻找 配音角色、声音或 TTS 模型 的下拉选择框。
点击下拉框，查找以 “克隆-” 开头的选项（如“克隆-中文”、“克隆-英文”）。这些就是无需上传参考音频的通用音色。

第三步：启用多角色匹配

在主界面，找到 语音识别 或 ASR 设置区域。
在该区域内，寻找并勾选 识别说话人 或 Speaker Diarization 选项。
处理视频后，在后续的编辑界面中，您应该可以为检测到的不同说话人（SPEAER_00, SPEAKER_01）分配不同的“克隆-”角色。

关键点：

您看到的是 WebUI 版本，所有功能都在这个浏览器页面内完成。
配置入口在左上角 菜单 -> 设置 中。
功能使用在主界面的各个设置区域里，请仔细查找“配音”和“识别说话人”相关选项。

如果按照以上步骤在 WebUI 的设置中确实找不到 GPT-SoVITS 的配置项，或者在下拉框中没有“克隆-”角色，那可能意味着这个 WebUI 版本编译时未包含 GPT-SoVITS 模块。

在这种情况下，您可以尝试：

使用 工具箱 中的功能：WebUI 通常有“工具箱”或“独立工具”页面，里面可能有“字幕多角色配音”工具，或许能提供更多选项。
考虑使用 预打包的桌面版：从官网下载页面，选择明确标注为“Windows 桌面版”或“预打包版（sp.exe）”的压缩包，它应该启动的是传统桌面窗口，功能更完整。

请先在当前 WebUI 的 菜单 -> 设置 中仔细查找 GPT-SoVITS 配置项。

Floor #12 118.167* reply at 7 months ago

他一直出現這個沒有配音的地方

Floor #13 DeepSeek reply at 7 months ago

我看到了问题。您当前的 WebUI 界面布局与标准版本不同，缺少了关键的 “配音” 功能区。这通常是因为界面被设置为 “简洁模式” 或 “新手模式”，隐藏了高级选项。

解决方案：请按以下步骤操作，显示完整的“配音”设置行。

切换界面模式
在您当前的 WebUI 界面中，仔细查找以下位置：
- 顶部或侧边栏是否有 “显示所有参数”、“切换到专业模式”、“展开高级选项” 或类似字样的按钮或开关。
- 或者，点击左上角的菜单按钮（三条横线），在菜单中寻找 “设置” 或 “选项”，然后在设置页面内查找 “界面模式” 或 “主界面显示所有参数” 的选项，将其开启或切换到 “专业模式”。
如果找不到切换按钮
如果界面上确实没有切换模式的选项，那么您需要通过 高级选项 来强制开启。
- 点击左上角菜单 -> 工具 -> 高级选项。
- 在打开的“高级选项”窗口中，寻找 “主界面显示所有参数” 或 “显示完整功能区” 之类的选项，将其勾选。
- 点击保存并关闭窗口。
- 刷新浏览器页面 或返回主界面，查看是否出现了新的行（特别是“配音”行）。
找到“配音”行后
一旦“配音”行出现，您就可以：
- 在“配音”行中找到 “配音角色” 下拉框。
- 点击下拉框，查找以 “克隆-” 开头的选项（如“克隆-中文”）。
- 同时，在 “语音识别” 行中，勾选 “识别说话人”。

如果以上步骤都无法让“配音”行出现：
这可能意味着您使用的 WebUI 版本功能不完整。作为最终解决方案，建议您：

从官网 (https://pyvideotrans.com/downpackage) 重新下载 最新版的 Windows 预打包版。
将其解压到一个全新的、纯英文路径的文件夹中（如 D:\pyvideotrans_new）。
双击新的 sp.exe 启动。确保它启动的是传统的桌面软件窗口，而不是浏览器页面。 在桌面版中，8行功能区是默认完整显示的。

总结操作顺序：

在当前 WebUI 中寻找 “显示所有参数”/“专业模式” 开关并打开。
如果找不到，通过 菜单 -> 工具 -> 高级选项 勾选 “主界面显示所有参数”，保存并刷新。
若仍不成功，重新下载并解压新版桌面程序到纯英文路径使用。

Floor #14 118.167* reply at 7 months ago

沒有專業模式

Floor #15 DeepSeek reply at 7 months ago

根据您的截图，您已经打开了“高级选项”窗口，但里面没有“主界面显示所有参数”或“专业模式”的开关。这证实了您使用的 WebUI 版本功能被简化了，可能不包含完整的“配音”模块。

要使用“无需上传参考声音的自动克隆和多角色匹配”功能，您必须使用功能完整的 桌面应用程序版本。

请严格按以下步骤操作：

下载正确的版本：
- 访问官方下载页：https://pyvideotrans.com/downpackage
- 下载 Windows 预打包版（通常文件名类似 pyVideoTrans_v3.86_Windows.7z 或 pyVideoTrans_Windows.zip）。
解压到正确路径：
- 关键：将下载的压缩包解压到一个 全新的、纯英文、无空格 的文件夹中。例如：
  - D:\pyvideotrans
  - E:\video_translate
- 绝对禁止解压到包含中文、空格或特殊符号的路径，也不要解压到 桌面、文档 或 C:\Program Files 等系统目录。
启动桌面版程序：
- 进入您解压好的新文件夹。
- 双击运行 sp.exe。
- 这次，它应该会启动一个独立的、传统的桌面软件窗口，而不是在浏览器中打开。这个窗口会默认显示完整的8行功能区，其中第4行就是“配音”。
在桌面版中配置和使用：
- 在桌面版软件中，点击顶部菜单栏的 工具 -> 设置。
- 找到 GPT-SoVITS 部分，填入地址 http://127.0.0.1:9880，点击 测试连接，保存。
- 回到主界面，您会直接看到“配音”行，在“配音角色”下拉框中就能找到 “克隆-” 开头的选项。
- 在“语音识别”行，勾选 “识别说话人”。

总结问题根源：您当前运行的 sp.exe 可能是一个旧版本或特殊打包版本，它被配置为启动功能受限的 WebUI。您需要下载最新的预打包版，并确保解压路径完全符合要求，这样才能启动功能完整的桌面应用程序。请先尝试以上步骤。

Floor #16 118.167* reply at 7 months ago

E:\YOUTUBE\pyvideotrans
我的路徑沒有中文
而且也重新安裝最新版本win-pyvideotrans-v3.87
點sp.exe 仍然沒有

Floor #17 DeepSeek reply at 7 months ago

根据您的描述，问题已经非常明确：您下载的 win-pyvideotrans-v3.87 版本，其 sp.exe 启动后仍然是一个功能受限的 WebUI，而不是完整的桌面应用程序。这可能是该版本的特殊打包方式导致的。要解决此问题并找到“配音”功能，您需要 降级到 v3.86 的预打包桌面版 或 使用命令行启动完整功能。请按以下步骤操作：方案一：降级到 v3.86 桌面版（推荐，最直接）1. 访问官方下载页：https://pyvideotrans.com/downpackage2. 下载 v3.86 的 Windows 预打包版（文件名通常为 pyVideoTrans_v3.86_Windows.7z 或类似）。注意：不要下载 v3.87 的版本。3. 将下载的 v3.86 压缩包解压到一个全新的、纯英文路径的文件夹中（例如 E:\pytrans386）。4. 进入该文件夹，双击 sp.exe 启动。此时应该会打开一个传统的桌面软件窗口，而不是浏览器。 您会直接看到完整的8行功能区，第4行就是“配音”。方案二：在当前 v3.87 版本中使用命令行启动（备用方案）如果降级后问题依旧，或者您想保留 v3.87，请尝试：1. 打开 命令提示符 (CMD) 或 PowerShell。2. 使用 cd 命令切换到您的 pyVideoTrans 目录：bashcd /d E:\YOUTUBE\pyvideotrans3. 尝试运行以下命令之一来启动软件，它们可能调用不同的入口点：bashpython sp.py或bashpython videotrans\sp.py如果提示“python”不是命令，您需要先安装 Python，或者使用软件自带的 Python 环境（如果存在 python.exe 或 venv 文件夹）。核心结论：您遇到的根本原因是 v3.87 的 sp.exe 启动器被配置为启动一个功能不完整的 WebUI 版本。要获得完整的“配音”等功能，您需要：使用 v3.86 的预打包桌面版，这是最稳定、功能最完整的解决方案。请先尝试 方案一。

#1736 有没有不需要上传参考声音，即可自动克隆声音翻译並支持多角色自动匹配的方法?

17 Replies

第一步：在 WebUI 中配置 GPT-SoVITS

第二步：在主界面使用克隆角色

第三步：启用多角色匹配

Post Your Reply

Related resource