#1736 有没有不需要上传参考声音,即可自动克隆声音翻译並支持多角色自动匹配的方法?

118.167* Posted at: 6 days ago 👁53

有没有不需要上传参考声音,即可自动克隆声音翻译並支持多角色自动匹配的方法?

17 Replies

是的,pyVideoTrans 支持无需上传参考声音的自动语音克隆和多角色匹配。主要方法如下:

  1. 使用预训练的多语言/多角色模型

    • GPT-SoVITS (本地部署):在软件中配置 GPT-SoVITS 服务地址后,可以直接选择其内置的、无需参考音频的“克隆角色”(如 克隆-中文克隆-英文 等)进行配音。这些角色基于通用模型生成,并非克隆特定人声。
    • F5-TTS / CosyVoice / ChatterBox:这些是同样集成在软件中的本地 TTS 模型,通常内置多种风格的音色(如男声、女声、播音腔等),可以直接选择使用,无需克隆。
  2. 实现“多角色自动匹配”

    • 此功能需要语音识别时区分说话人
    • 操作步骤
      a. 在主界面 第2行(语音识别),勾选 识别说话人 选项(首次使用需下载模型)。
      b. 识别完成后,在字幕编辑界面,系统会为不同说话人分配标签(如 SPEAKER_00, SPEAKER_01)。
      c. 进入配音预览界面,你可以为每个说话人标签单独指定一个配音角色(例如,SPEAKER_00 用“克隆-男声”,SPEAKER_01 用“克隆-女声”)。
    • 注意:目前软件不能根据语音内容自动分配角色,需要用户在配音预览界面手动为每个检测到的说话人选择音色。

总结方案:使用 GPT-SoVITS 等本地模型的“克隆角色”或 F5-TTS 等内置音色,结合 “识别说话人” 功能,即可实现无需上传参考音频、并为不同角色分配不同音色的翻译配音流程。

image
他要求我上傳參考聲音

您看到的是 GPT-SoVITS 的 WebUI 界面,它要求上传参考音频进行声音克隆。要在 pyVideoTrans 中实现 无需上传参考声音的自动克隆和多角色匹配,您需要:

1. 正确配置 GPT-SoVITS 服务

  • 确保 GPT-SoVITS 服务已启动,并且其 API 地址(通常是 http://127.0.0.1:9880)已正确填入 pyVideoTrans 的 菜单 -> 工具 -> 设置 -> GPT-SoVITS 中。
  • 关键点:在 GPT-SoVITS 的 WebUI 中,您需要先训练好一个通用的基础模型,或者直接使用其提供的、无需参考音频的“克隆”功能(如果模型支持)。

2. 在 pyVideoTrans 中选择“克隆角色”

  • 配置好服务后,在 pyVideoTrans 主界面 第4行(配音) 的“配音角色”下拉列表中,应该会出现以 “克隆-” 开头的角色选项(例如“克隆-中文”、“克隆-英文”)。
  • 这些“克隆角色”就是无需上传参考音频即可使用的通用合成音色

3. 实现多角色匹配

  • 第2行(语音识别),勾选 “识别说话人”
  • 视频处理到配音阶段时,会进入字幕编辑界面。系统会为不同说话人打上 SPEAKER_00SPEAKER_01 等标签。
  • 在接下来的配音预览界面,您可以手动为每个 SPEAKER_ 标签选择不同的“克隆-xxx”角色,从而实现多角色配音。

简单来说:您无需在 pyVideoTrans 里上传参考音频。您需要做的是:

  1. 在后台准备好 GPT-SoVITS 服务并训练好基础模型。
  2. 在 pyVideoTrans 中正确连接该服务。
  3. 直接选用软件里出现的“克隆-”角色,并结合“识别说话人”功能来分配音色。

如果“配音角色”下拉列表中没有出现“克隆-”选项,说明 GPT-SoVITS 服务连接或模型配置有问题,请检查服务地址和模型状态。

image
是我的版本不支持嗎?找不到克隆的地方 一直要我上傳參考聲音

您的 pyVideoTrans 版本(v3.86)是支持 GPT-SoVITS 的。问题在于您当前操作的界面是 GPT-SoVITS 独立的 WebUI,而不是在 pyVideoTrans 软件内部。

要实现“无需上传参考声音的自动克隆”,您需要 在 pyVideoTrans 软件内部 完成配置和操作。请严格按以下步骤进行:

第一步:在 pyVideoTrans 中配置 GPT-SoVITS 服务

  1. 确保 GPT-SoVITS 服务已在后台运行(您截图中的 WebUI 已打开,说明服务已启动)。
  2. 打开 pyVideoTrans 主软件
  3. 点击顶部菜单栏的 工具 -> 设置
  4. 在设置窗口中找到 GPT-SoVITS 部分。
  5. API地址 设置为 http://127.0.0.1:9880(这是 GPT-SoVITS 默认地址,如果您的端口不同请修改)。
  6. 点击 测试连接,确保显示连接成功。
  7. 点击 保存

第二步:在 pyVideoTrans 中选择克隆角色

  1. 回到 pyVideoTrans 主界面。
  2. 第4行(配音)“配音角色” 下拉列表中,您应该能看到以 “克隆-” 开头的选项(例如“克隆-中文”、“克隆-英文”等)。
  3. 这些“克隆-”角色就是无需上传参考音频即可使用的通用音色。 直接选择它们即可。

第三步:启用多角色匹配

  1. 第2行(语音识别),勾选 “识别说话人”
  2. 正常处理视频。当流程进行到“翻译后”阶段,会弹出配音预览/字幕编辑窗口。
  3. 在该窗口中,系统会显示检测到的不同说话人(如 SPEAKER_00, SPEAKER_01)。
  4. 您可以 手动为每个 SPEAKER 标签 分配一个不同的“克隆-”角色。

核心要点:

  • 您不需要在 GPT-SoVITS 的 WebUI 里上传任何东西。 那个界面是用于训练和精细调整特定人声模型的。
  • 您只需要在 pyVideoTrans 软件内部 连接 GPT-SoVITS 服务,并直接使用它提供的 “克隆-” 预设角色。
  • 如果配置后,pyVideoTrans 的“配音角色”下拉列表里仍然没有“克隆-”选项,可能是 GPT-SoVITS 的基础模型未正确加载或版本不兼容。请检查 GPT-SoVITS 的日志,确保其通用模型已成功加载。

image
我的GPT-SoVITS頁面沒有測試連接按鈕,點選測試顯示要我上傳參考聲音
左側第四行也沒有配音按鈕或頁面

我理解您的问题了。您当前看到的界面是 GPT-SoVITS 的独立 WebUI,而不是 pyVideoTrans 软件本身。您需要操作的是 pyVideoTrans 主程序

请按以下步骤操作:

  1. 打开正确的软件

    • 关闭您截图中的 GPT-SoVITS WebUI 浏览器页面。
    • 在您的电脑上找到并打开 pyVideoTrans 软件(Windows 用户是 sp.exe,Mac/Linux 用户运行 uv run sp.py)。
  2. 在 pyVideoTrans 软件内进行配置

    • 打开 pyVideoTrans 软件后,您会看到它的主界面(有8行功能区)。
    • 点击软件顶部菜单栏的 工具 -> 设置
    • 在打开的设置窗口中,找到 GPT-SoVITS 部分。
    • API地址 设置为 http://127.0.0.1:9880
    • 这里应该会有一个 测试连接 按钮,点击它。如果连接成功,会提示“连接成功”。
    • 点击 保存
  3. 回到主界面使用功能

    • 关闭设置窗口,回到 pyVideoTrans 主界面。
    • 主界面的 第4行 就是 “配音” 设置行。您会看到 “配音角色” 的下拉框。
    • 点击下拉框,您应该能看到以 “克隆-” 开头的选项(例如“克隆-中文”)。这些就是您要找的、无需上传参考音频的通用克隆音色。
    • 同时,在 第2行(语音识别),勾选 “识别说话人”,以便后续为不同角色分配不同音色。

总结一下:

  • GPT-SoVITS WebUI (您截图的那个):是后端服务的管理界面,用于训练模型。您不需要在这里操作。
  • pyVideoTrans 主程序:是前端应用,您所有的工作(翻译、配音)都在这里完成。您需要在这里配置 GPT-SoVITS 的地址,并直接选用它提供的“克隆-”角色。

请您先打开 pyVideoTrans 软件,然后按照上述步骤操作。如果打开后找不到界面或按钮,请告诉我您看到的 pyVideoTrans 软件具体是什么样子。

image
左側沒有配音

image
沒有測試連接按鈕

我看到了问题所在。您当前打开的是 pyVideoTrans 的 WebUI 版本(通过浏览器访问),而不是 桌面应用程序。WebUI 版本的功能和界面与桌面版不同,它可能不包含完整的 GPT-SoVITS 集成和“克隆角色”功能。

要使用“无需上传参考声音的自动克隆和多角色匹配”功能,您必须使用 pyVideoTrans 的桌面应用程序

解决方案:

  1. 关闭浏览器,停止访问 WebUI。
  2. 找到并运行桌面版应用程序

    • Windows 用户:找到您解压 pyVideoTrans 的文件夹(例如 D:\videotrans),双击里面的 sp.exe 文件启动。
    • Mac/Linux 用户:在终端中,进入 pyVideoTrans 项目目录,运行 uv run sp.py
  3. 在桌面版软件中配置

    • 启动后,您会看到一个独立的软件窗口,而不是浏览器页面。
    • 点击顶部菜单栏的 工具 -> 设置
    • 在设置窗口中,您会找到 GPT-SoVITS 部分,里面有 API地址 输入框和 测试连接 按钮。
    • 将地址设置为 http://127.0.0.1:9880,点击测试,保存。
  4. 使用功能

    • 回到主界面,您会看到清晰的 8行功能区第4行就是“配音”,那里有“配音角色”下拉框,您就能找到“克隆-”开头的选项了。
    • 第2行勾选“识别说话人”。

简单来说:您用错了软件界面。 您需要运行的是 sp.exe(桌面程序),而不是通过浏览器访问的 Web 服务。桌面版才具备完整的功能集成。请先尝试运行桌面版程序。

我就是双击sp.exe 文件启动

我明白了。您双击 sp.exe 启动后,软件自动在浏览器中打开了 WebUI 界面,而不是显示传统的桌面窗口。这是软件的一种部署方式。

要解决您的问题(找到 GPT-SoVITS 配置和克隆角色),您需要在 这个 WebUI 界面内 进行操作,但路径和桌面版略有不同。请按以下步骤:

第一步:在 WebUI 中配置 GPT-SoVITS

  1. 在您打开的浏览器页面(即 pyVideoTrans WebUI)中,点击左上角的 菜单 按钮(三条横线)。
  2. 在下拉菜单中,选择 设置
  3. 在设置页面中,您需要找到 GPT-SoVITS 相关的配置项。它可能位于“语音合成”或“高级设置”部分。请仔细查找以下字段:

    • GPT-SoVITS API 地址服务地址
    • 将其设置为 http://127.0.0.1:9880
    • 寻找 测试连接 按钮并点击。
  4. 保存设置。

第二步:在主界面使用克隆角色

  1. 返回 WebUI 的主界面(翻译任务页面)。
  2. 在主界面中,您需要找到 配音语音合成 相关的设置区域。它可能被折叠或归类在某个标签页下(例如“高级选项”或“第二步:配音”)。
  3. 在该区域,寻找 配音角色声音TTS 模型 的下拉选择框。
  4. 点击下拉框,查找以 “克隆-” 开头的选项(如“克隆-中文”、“克隆-英文”)。这些就是无需上传参考音频的通用音色。

第三步:启用多角色匹配

  1. 在主界面,找到 语音识别ASR 设置区域。
  2. 在该区域内,寻找并勾选 识别说话人Speaker Diarization 选项。
  3. 处理视频后,在后续的编辑界面中,您应该可以为检测到的不同说话人(SPEAER_00, SPEAKER_01)分配不同的“克隆-”角色。

关键点

  • 您看到的是 WebUI 版本,所有功能都在这个浏览器页面内完成。
  • 配置入口在左上角 菜单 -> 设置 中。
  • 功能使用在主界面的各个设置区域里,请仔细查找“配音”和“识别说话人”相关选项。

如果按照以上步骤在 WebUI 的设置中确实找不到 GPT-SoVITS 的配置项,或者在下拉框中没有“克隆-”角色,那可能意味着这个 WebUI 版本编译时未包含 GPT-SoVITS 模块。

在这种情况下,您可以尝试:

  1. 使用 工具箱 中的功能:WebUI 通常有“工具箱”或“独立工具”页面,里面可能有“字幕多角色配音”工具,或许能提供更多选项。
  2. 考虑使用 预打包的桌面版:从官网下载页面,选择明确标注为“Windows 桌面版”或“预打包版(sp.exe)”的压缩包,它应该启动的是传统桌面窗口,功能更完整。

请先在当前 WebUI 的 菜单 -> 设置 中仔细查找 GPT-SoVITS 配置项。

他一直出現這個 沒有配音的地方image

我看到了问题。您当前的 WebUI 界面布局与标准版本不同,缺少了关键的 “配音” 功能区。这通常是因为界面被设置为 “简洁模式”“新手模式”,隐藏了高级选项。

解决方案:请按以下步骤操作,显示完整的“配音”设置行。

  1. 切换界面模式
    在您当前的 WebUI 界面中,仔细查找以下位置:

    • 顶部或侧边栏是否有 “显示所有参数”“切换到专业模式”“展开高级选项” 或类似字样的按钮或开关。
    • 或者,点击左上角的 菜单 按钮(三条横线),在菜单中寻找 “设置”“选项”,然后在设置页面内查找 “界面模式”“主界面显示所有参数” 的选项,将其开启或切换到 “专业模式”
  2. 如果找不到切换按钮
    如果界面上确实没有切换模式的选项,那么您需要通过 高级选项 来强制开启。

    • 点击左上角 菜单 -> 工具 -> 高级选项
    • 在打开的“高级选项”窗口中,寻找 “主界面显示所有参数”“显示完整功能区” 之类的选项,将其勾选。
    • 点击 保存 并关闭窗口。
    • 刷新浏览器页面 或返回主界面,查看是否出现了新的行(特别是“配音”行)。
  3. 找到“配音”行后
    一旦“配音”行出现,您就可以:

    • 在“配音”行中找到 “配音角色” 下拉框。
    • 点击下拉框,查找以 “克隆-” 开头的选项(如“克隆-中文”)。
    • 同时,在 “语音识别” 行中,勾选 “识别说话人”

如果以上步骤都无法让“配音”行出现:
这可能意味着您使用的 WebUI 版本功能不完整。作为最终解决方案,建议您:

  1. 从官网 (https://pyvideotrans.com/downpackage) 重新下载 最新版的 Windows 预打包版
  2. 将其解压到一个全新的、纯英文路径的文件夹中(如 D:\pyvideotrans_new)。
  3. 双击新的 sp.exe 启动。确保它启动的是传统的桌面软件窗口,而不是浏览器页面。 在桌面版中,8行功能区是默认完整显示的。

总结操作顺序:

  1. 在当前 WebUI 中寻找 “显示所有参数”/“专业模式” 开关并打开。
  2. 如果找不到,通过 菜单 -> 工具 -> 高级选项 勾选 “主界面显示所有参数”,保存并刷新。
  3. 若仍不成功,重新下载并解压新版桌面程序到纯英文路径使用。

image
沒有專業模式

根据您的截图,您已经打开了“高级选项”窗口,但里面没有“主界面显示所有参数”或“专业模式”的开关。这证实了您使用的 WebUI 版本功能被简化了,可能不包含完整的“配音”模块。

要使用“无需上传参考声音的自动克隆和多角色匹配”功能,您必须使用功能完整的 桌面应用程序版本

请严格按以下步骤操作:

  1. 下载正确的版本

    • 访问官方下载页:https://pyvideotrans.com/downpackage
    • 下载 Windows 预打包版(通常文件名类似 pyVideoTrans_v3.86_Windows.7zpyVideoTrans_Windows.zip)。
  2. 解压到正确路径

    • 关键:将下载的压缩包解压到一个 全新的、纯英文、无空格 的文件夹中。例如:

      • D:\pyvideotrans
      • E:\video_translate
    • 绝对禁止解压到包含中文、空格或特殊符号的路径,也不要解压到 桌面文档C:\Program Files 等系统目录。
  3. 启动桌面版程序

    • 进入您解压好的新文件夹。
    • 双击运行 sp.exe
    • 这次,它应该会启动一个独立的、传统的桌面软件窗口,而不是在浏览器中打开。这个窗口会默认显示完整的8行功能区,其中第4行就是“配音”。
  4. 在桌面版中配置和使用

    • 在桌面版软件中,点击顶部菜单栏的 工具 -> 设置
    • 找到 GPT-SoVITS 部分,填入地址 http://127.0.0.1:9880,点击 测试连接,保存。
    • 回到主界面,您会直接看到“配音”行,在“配音角色”下拉框中就能找到 “克隆-” 开头的选项。
    • 在“语音识别”行,勾选 “识别说话人”

总结问题根源:您当前运行的 sp.exe 可能是一个旧版本或特殊打包版本,它被配置为启动功能受限的 WebUI。您需要下载最新的预打包版,并确保解压路径完全符合要求,这样才能启动功能完整的桌面应用程序。请先尝试以上步骤。

E:\YOUTUBE\pyvideotrans
我的路徑沒有中文
而且也重新安裝最新版本win-pyvideotrans-v3.87
點sp.exe 仍然沒有

根据您的描述,问题已经非常明确:您下载的 win-pyvideotrans-v3.87 版本,其 sp.exe 启动后仍然是一个功能受限的 WebUI,而不是完整的桌面应用程序。这可能是该版本的特殊打包方式导致的。要解决此问题并找到“配音”功能,您需要 降级到 v3.86 的预打包桌面版使用命令行启动完整功能。请按以下步骤操作:方案一:降级到 v3.86 桌面版(推荐,最直接)1. 访问官方下载页:https://pyvideotrans.com/downpackage2. 下载 v3.86 的 Windows 预打包版(文件名通常为 pyVideoTrans_v3.86_Windows.7z 或类似)。注意:不要下载 v3.87 的版本。3. 将下载的 v3.86 压缩包解压到一个全新的、纯英文路径的文件夹中(例如 E:\pytrans386)。4. 进入该文件夹,双击 sp.exe 启动。此时应该会打开一个传统的桌面软件窗口,而不是浏览器。 您会直接看到完整的8行功能区,第4行就是“配音”。方案二:在当前 v3.87 版本中使用命令行启动(备用方案)如果降级后问题依旧,或者您想保留 v3.87,请尝试:1. 打开 命令提示符 (CMD)PowerShell。2. 使用 cd 命令切换到您的 pyVideoTrans 目录:bashcd /d E:\YOUTUBE\pyvideotrans3. 尝试运行以下命令之一来启动软件,它们可能调用不同的入口点:bashpython sp.pybashpython videotrans\sp.py如果提示“python”不是命令,您需要先安装 Python,或者使用软件自带的 Python 环境(如果存在 python.exevenv 文件夹)。核心结论:您遇到的根本原因是 v3.87 的 sp.exe 启动器被配置为启动一个功能不完整的 WebUI 版本。要获得完整的“配音”等功能,您需要:使用 v3.86 的预打包桌面版,这是最稳定、功能最完整的解决方案。请先尝试 方案一

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Donate: https://ko-fi.com/jianchang512

Trending Questions