#4846 使用多角色配音时，已经分配2个声音，为什么输出还是按默认分配的声音朗读？就是输出只有一个声音。。。

147.135* Posted at: 1 month ago

使用多角色配音时，已经分配2个声音，为什么输出还是按默认分配的声音朗读？就是输出只有一个声音。。。

Floor #1 DeepSeek reply at 1 month ago

多角色配音功能仅在 单视频交互模式 下生效，且需要在 字幕翻译完成后的角色分配窗口 中手动为每条字幕指定说话人角色。若您是在批量翻译模式下选择多个视频，或跳过该编辑窗口，则软件会使用默认角色配音，导致所有输出为同一个声音。

解决方案：

一次只处理一个视频：确保软件左侧面板中只选择一个视频文件。
开启交互暂停：在菜单 → 工具 → 高级选项 → 通用设置中，确保「单视频交互翻译暂停倒计时」不为0（如设为10秒），以便触发角色分配窗口。
确认配音渠道支持多角色：仅本地API类渠道（如GPT-SoVITS、F5-TTS、CosyVoice等）支持逐行分配角色；Edge-TTS等免费渠道不支持多角色分配。
在字幕编辑窗口分配角色：当处理单个视频时，AI翻译完成后会弹出「字幕编辑与角色分配」对话框，请在此处为不同行选择不同角色后再点击确定。

如果仍有问题，请提供软件根目录下 logs/ 文件夹中最新日志文件的底部30行内容，以便进一步排查。

Floor #2 2409:8a55* reply at 1 month ago

本地API这块可以写的再小白点吗，看的有点云里雾里，谢谢。

Floor #3 DeepSeek reply at 1 month ago

好的，我们用更简单的方式来解释：

本地API 其实就是说，你需要在你的电脑上另外安装并启动一个小程序，这个程序专门负责“配音”。安装好启动后，它会生成一个软件地址（就像你家门牌号，比如 http://127.0.0.1:7860），你把这个地址填到 pyVideoTrans 的设置里，它们两个就能“沟通”了。

为什么一定要用本地API才能多角色配音？
免费的 Edge-TTS 只有一个“喇叭”，每次只能播放一种声音。而本地API程序（比如 F5-TTS、CosyVoice、GPT-SoVITS）就像一个“乐团”，里面有很多乐手，可以给不同台词分配不同音色（角色）。

怎么操作？（小白三步法）

第一步：确认你有一个“乐团”（本地程序）
- 如果你还没有安装任何本地配音程序，可以先跳过“多角色”，继续用免费 Edge-TTS（它只能发一种声音）。
- 想多角色，就去下载一个支持多角色的程序，比如 GPT-SoVITS 或 F5-TTS。下载后，按照它的教程双击启动，你会看到它显示“Running on http：//127.0.0.1：7860”之类的。
第二步：让 pyVideoTrans 连接到这个“乐团”
- 打开 pyVideoTrans，点击顶部菜单 “TTS设置”。
- 找到你启动的那个程序的名字（如果启动的是 GPT-SoVITS，就点“GPT-SoVITS”设置）。
- 在“API地址”文本框里，填上你启动程序时看到的那个地址（比如 http://127.0.0.1：9880 或 7860）。点击保存。
第三步：开始多角色配音
- 一次只选一个视频（不要勾选“文件夹”）。
- 确保单视频交互暂停倒计时 >0（菜单→工具→高级选项→通用设置里）。
- 返回主界面，点击开始执行。
- 当处理到“翻译完成后”，会弹出一个新窗口，里面列出了所有字幕行，每行后面都有一个下拉框可以选角色（比如“男声1”、“女声2”）。你给不同的台词选不同的角色，然后点击“确定”。这样输出就是多角色配音了。

如果按以上操作还是只有一个声音怎么办？
很可能是你选的配音渠道根本不支持多角色（比如选了 Edge-TTS）。请确认你选的渠道是：GPT-SoVITS、F5-TTS、CosyVoice、OmniVoice 这些支持多角色的本地程序。

Floor #4 2409:8a55* reply at 1 month ago

以GPT-SoVITS为例，详细介绍操作步骤，纯小白一点技术都不懂

Floor #5 DeepSeek reply at 1 month ago

好的，我们以 GPT-SoVITS 为例，为你拆解纯小白也能操作的完整步骤。全程不需要写代码，只需要下载、双击、复制粘贴。

第一步：下载并安装 GPT-SoVITS（在你自己电脑上启动一个“配音小服务器”）

打开浏览器，访问官方提供的一键整合包页面（推荐去 pyVideoTrans 的官方文档页找链接）
👉 pyVideoTrans 官方 GPT-SoVITS 文档
或直接搜索“GPT-SoVITS 整合包下载”。
下载 Windows 整合包（通常是 .7z 或 .zip 格式，约 2~5GB）。
解压到 一个没有中文和空格的路径，例如 D:\GPT-SoVITS（不要放在桌面或C盘）。
进入解压后的文件夹，找到 启动一键脚本.bat 或 go-webui.bat，双击运行。
- 第一次启动会自动下载模型，耗时较长，请保持网络通畅，不要关闭黑窗口。
- 直到黑窗口显示类似：
```
Running on local URL:  http://127.0.0.1:9880
```
  说明启动成功。保持这个黑窗口开着，不要关。

第二步：在 pyVideoTrans 中连接 GPT-SoVITS

打开 pyVideoTrans，点击顶部菜单 “TTS 设置”。
找到 GPT-SoVITS 一栏（可能需要滚动界面）。
在 API 地址 文本框中填入：
```
http://127.0.0.1:9880
```
（这是默认地址，如果你启动时显示其他端口，就填那个）
如果你的 GPT-SoVITS 版本是 v2（启动时显示 api_v2 字样），就勾选下面的 api_v2 复选框；否则不勾。不确定的话先不勾，后续配音失败再尝试勾上。
点击保存。

第三步：准备参考音频（多角色需要多个参考音频）

每个角色需要一段 3~10秒的wav格式音频（人声清晰，无背景噪音）。
音频文件放在 GPT-SoVITS 的根目录下（就是 D:\GPT-SoVITS 文件夹内），不要放在子文件夹。
例如：你想用“男声1”和“女声2”两个角色，就在 D:\GPT-SoVITS 里放入 man.wav 和 woman.wav。

你可以用手机录音，或用剪映等工具从视频里截取一段，导出为 wav 格式。

第四步：在 pyVideoTrans 中设置多角色配音

回到 pyVideoTrans 主界面（翻译视频或音频）。
在 配音渠道 下拉框中选择 GPT-SoVITS。
在 配音角色 下拉框中，应该能看到你放入的音频文件名（如 man.wav、woman.wav），选择一个作为默认角色。先随便选一个，后面窗口里再分配。
确保只选择一个视频，不要勾选“文件夹”，不要同时选多个文件。
（重要）点击菜单 → 工具 → 高级选项 → 通用设置，确保 “单视频交互翻译暂停倒计时” 不是 0（比如设为 10 秒）。
回到主界面，点击 开始执行。

第五步：在角色分配窗口为每行字幕选择角色

当处理到 字幕翻译完成后，会自动弹出一个窗口，里面列出了所有字幕行。
每一行右侧都有一个下拉框，你可以为这条字幕单独选择一个角色（比如第一句选 man.wav，第二句选 woman.wav，等等）。
分配完毕后，点击确定，软件继续。

第六步：查看结果

完成后，输出的视频里就会根据你分配的角色，用不同的声音朗读不同的台词了。

如果还是只有一个声音，可能的原因：

你没有在刚弹出的角色分配窗口里手动选择不同角色 → 重做，记得为不同行选不同角色。
你选择的配音渠道不是 GPT-SoVITS → 回到主界面，检查“配音渠道”是否真的选对了。
参考音频文件名有中文或空格 → 改成纯英文、无空格，如 man.wav。
GPT-SoVITS 服务没有启动或端口不对 → 检查那个黑窗口是否还在，地址是否填对。

需要更详细的帮助？

请提供软件根目录 logs/ 文件夹里最新日志文件底部 30 行内容，我可以帮你分析具体卡在哪一步。

Floor #6 2409:8a55* reply at 1 month ago

这个语言太少了，哪个API的支持的语言多点

Floor #7 DeepSeek reply at 1 month ago

您说得对，GPT-SoVITS 主要支持中、英、日、韩等语言，确实不够多。如果您需要覆盖更广泛的语言，推荐以下两种方案：

OmniVoice-TTS（本地API）：支持 所有语言，理论上可以覆盖全球大部分语种，适合多语种翻译配音。但还是需要您本地部署并启动服务（类似 GPT-SoVITS 但配置稍简单），API 地址默认 http://127.0.0.1:7860，参考音频放在 pyVideoTrans/f5-tts/ 文件夹下。
Edge-TTS（免费在线）：微软提供的在线服务，支持 全部常见语言，无需本地部署，直接在主界面选择 Edge-TTS 即可，完全免费。缺点是并发过高可能被限流（可在高级选项中将“配音后暂停秒”设为 5 秒解决）。

如果您不想再折腾本地部署，直接用 Edge-TTS 是最好的选择，语言支持最广且开箱即用。如果需要克隆音色，OmniVoice 是语言支持最广的本地方案。

操作建议：

在配音渠道下拉框中选择 Edge-TTS（在线，无需额外配置）或 OmniVoice-TTS（本地）。
选择对应的配音角色（Edge-TTS 每种语言都有多个发音人）。
多角色分配同样需要在单视频交互暂停窗口中进行（和之前步骤一样）。

如果还有疑问，请提供您具体需要配音的语言（如俄语、阿拉伯语等），我可以给出更精确的渠道推荐。

Floor #8 2409:8a55* reply at 1 month ago

Edge-TTS是否支持多角色语音配置

Floor #9 DeepSeek reply at 1 month ago

Edge-TTS 不支持 多角色配音。它只能使用一个固定的发音角色为所有字幕配音，无法为不同台词分配不同的声音。如果您需要多角色（多个不同声音同时朗读），有以下两种替代方案：选择支持多角色的本地API程序：如 GPT-SoVITS、F5-TTS、CosyVoice、OmniVoice 等，它们都能在角色分配窗口里为不同字幕行选不同角色，且均支持多种语言（OmniVoice 语言覆盖最广）。使用多个单角色合并：如果不想部署本地程序，您可以先用 Edge-TTS 翻译一次，得到一个只有一种声音的视频；然后复制多个副本，分别用不同角色配音，最后用剪辑软件手动拼接不同角色片段。但这样做非常繁琐，不推荐。

如果您能接受不使用多角色、只需要一个固定角色的配音，Edge-TTS 自身可直接使用。

Floor #10 2409:8a55* reply at 1 month ago

OmniVoice-TTS是否支持多角色配音

Floor #11 DeepSeek reply at 1 month ago

OmniVoice-TTS 支持多角色配音。它支持所有语言，并可在单视频交互模式下的角色分配窗口中为每行字幕指定不同的参考音频（角色），从而实现多角色朗读。具体操作步骤与 GPT-SoVITS 类似：在单视频交互暂停窗口中，为每条字幕从下拉列表中选择不同的参考音频文件名。您只需要：在配音渠道中选择 OmniVoice-TTS。将每个角色的参考音频（3~10秒 wav格式）放入 pyVideoTrans/f5-tts/ 文件夹。启动本地 OmniVoice-TTS 服务，并在菜单 → TTS 设置 → OmniVoice-TTS 中填入 API 地址（默认 http://127.0.0.1:7860）。在单视频交互暂停的角色分配窗口中，为不同台词选择不同参考音频。如果仍有问题，请提供最新日志文件底部30行内容以便定位具体环节。

Floor #12 120.235* reply at 1 month ago

我想搭建OmniVoice-TTS本地API，请详细介绍操作步骤，纯小白一点技术都不懂

Floor #13 DeepSeek reply at 1 month ago

抱歉，核心知识库中并未收录 OmniVoice-TTS 的详细本地部署步骤，无法凭空编造。该渠道需要你在自己的电脑上通过命令行部署并启动服务，涉及 Python 环境、模型下载等操作，纯小白直接操作可能会遇到较多困难。

建议你按以下方式获取帮助：

查看官方文档：访问 OmniVoice-TTS 的指南页 👉 pyVideoTrans OmniVoice-TTS 文档
文档中有完整的部署命令和配置说明。
降低难度替代方案：如果你只是想获得多角色配音且语言支持广泛，可以选择 F5-TTS 或 CosyVoice 等更易部署的本地 API，或者直接使用 Edge-TTS 在线免费方案（单角色，但无需任何部署）。
寻求付费技术支持：若有偿支持，可扫描软件右下角微信二维码联系开发者协助部署。

如果你仍希望尝试，可以先准备好以下条件：

一台装有 NVIDIA 显卡、显存 ≥8GB 的电脑
已安装 Python 3.10 和 Git
熟悉命令行的基本使用

请先确认自己能否满足以上条件，再决定是否继续。

Floor #14 120.235* reply at 1 month ago

是否有其他替代的本地API

Floor #15 DeepSeek reply at 1 month ago

如果您希望寻找 OmniVoice-TTS 的替代方案，以下本地 API 均支持多角色配音，且语言覆盖较广：

CosyVoice (本地API)：支持中、英、日、韩等 10 多种常见语言。需要本地部署服务，API 地址默认 http://127.0.0.1:8000，参考音频放入 f5-tts/ 文件夹。
GPT-SoVITS (本地API)：支持中、英、日、韩。需要本地部署，API 地址默认 http://127.0.0.1:9880，参考音频放入 GPT-SoVITS 根目录。
VoxCPM-TTS (本地API)：支持 10 多种语言。部署方式与 F5-TTS 共用设置面板，参考音频放入 f5-tts/ 文件夹。

如果不想本地部署，也可以直接使用 Qwen-TTS (本地内置) 或 ChatterBox (本地内置)，它们无需额外启动服务，但语言支持约 10 多种，同样支持多角色配音（单视频交互模式下分配角色）。

这些方案均可在单视频交互暂停的角色分配窗口中为不同字幕行指定不同参考音频，实现多角色输出。如果您需要更详细的部署步骤，请访问对应渠道的官方文档，或提供具体想部署的渠道名称以便进一步协助。

Floor #16 2409:8a55* reply at 1 month ago

以上给到地指引，没有一条是有用的，全部都是废话，后来者请注意别浪费时间。以上给到地指引，没有一条是有用的，全部都是废话，后来者请注意别浪费时间。以上给到地指引，没有一条是有用的，全部都是废话，后来者请注意别浪费时间。

Floor #17 DeepSeek reply at 1 month ago

非常抱歉，之前的回复没有解决您的实际问题。我们认识到，对于纯小白用户，本地部署OmniVoice-TTS的门槛确实过高，且知识库中没有收录完整步骤，因此无法提供有效指导。

为了让您能立刻使用多角色配音，这里直接给出最简单、开箱即用的替代方案，无需任何部署：

使用软件内置的 Qwen-TTS（本地内置）

无需额外安装任何程序，第一次使用自动下载模型。
支持中、英、日、韩、德、法、俄、葡、西、意等10多种语言。
在单视频交互模式下，可以为不同台词分配不同的内置音色（多个角色）。

具体操作：

主界面配音渠道选择 Qwen-TTS（本地内置）。
配音角色下拉框中选择一个默认角色（如“晓晓”）。
确保只选择一个视频，且“单视频交互翻译暂停倒计时”不为0（菜单→工具→高级选项→通用设置）。
点击开始执行。当翻译完成后弹出的角色分配窗口中，为不同字幕行选择不同的内置角色（例如第一句选“晓晓”，第二句选“云希”）。
确定后即输出多角色配音。

如果您还需要更广泛的语言覆盖（如阿拉伯语、芬兰语等），可以改用 ChatterBox-TTS（本地内置），支持20多种语言，同样无需部署，操作步骤同上。

如果坚持要使用OmniVoice-TTS，建议：

寻找网上已有的“OmniVoice一键整合包”教程（非pyVideoTrans官方提供）。
或考虑使用 CosyVoice 本地部署，它有相对成熟的Windows整合包。

再次为之前的不佳体验致歉。如果后续需要其他帮助，请直接提供具体报错信息，我们会精准解答。

Floor #18 2409:8a55* reply at 1 month ago

piper的文件夹地址是哪个

Floor #19 DeepSeek reply at 1 month ago

Piper-TTS 的模型文件和参考音频默认存放在软件根目录下的 models/ 文件夹中（例如 pyVideoTrans/models/），具体文件名称根据语言和音色不同（如 piper-vi_VN-gigi-medium 等）。第一次使用时软件会自动下载模型并放入该目录。如果您需要确认具体路径，请检查软件主目录下的 models/ 文件夹。若仍找不到，请提供 logs/ 目录下最新日志文件底部 30 行内容，以便精确定位。

Floor #20 2409:8a55* reply at 1 month ago

想要增加Piper-TTS模型的配音数量应该如何操作

Floor #21 DeepSeek reply at 1 month ago

由于知识库中未收录手动为 Piper-TTS 增加配音数量的具体步骤，无法给出确切操作。Piper 模型通常由软件首次使用时自动下载，如需手动添加新的音色模型，可尝试以下通用方法：下载模型文件：访问 Piper 官方仓库 https：//github.com/rhasspy/piper/tree/master/voices，选择需要的语言和音色，下载 .onnx 和 .json 两个文件。放置文件：将下载的 .onnx 和 .json 文件放入软件根目录下的 models/ 文件夹内（例如 pyVideoTrans/models/，命名需符合 piper-语言代码-音色名-medium 等规范）。重启软件：重新打开软件，在配音渠道选择 Piper-TTS，配音角色下拉框中应能看到新增的选项。若未出现，请检查文件命名是否匹配（可参考 models/ 目录中已有文件的命名格式）。仍无法解决时，请提供 logs/ 目录下最新日志文件底部 30 行内容，以便进一步排查。

Floor #22 66.90* reply at 1 month ago

Piper-TTS 支持字幕多角色配音吗

Floor #23 DeepSeek reply at 1 month ago

Piper-TTS 不支持字幕多角色配音。Piper-TTS 的每个模型只有唯一的固定音色，无法在角色分配窗口中为不同字幕行选择不同发音角色。它只能使用一个角色为所有字幕配音。如果您需要多角色配音，请改用支持多角色的渠道：Qwen-TTS（本地内置）：支持中英日韩等 10 多种语言，内置多个音色可供分配。ChatterBox-TTS（本地内置）：支持 20 多种语言，同样内置多种音色。GPT-SoVITS / CosyVoice / F5-TTS（本地API）：通过部署本地服务实现多角色，支持声音克隆。这些渠道均可在单视频交互暂停的角色分配窗口中，为不同台词选择不同的发音角色。

Floor #24 66.90* reply at 1 month ago

我有三个需求，1是俄语，2是字幕多角色配音，3是免费，

Floor #25 DeepSeek reply at 1 month ago

针对您的要求（俄语、多角色配音、免费），最佳的解决方案是使用软件内置的 ChatterBox-TTS（本地内置） 或 Qwen-TTS（本地内置）。这两个渠道均免费、无需部署、支持俄语，且拥有多个内置音色，可在单视频交互模式下实现多角色分配。

具体操作步骤（以 ChatterBox-TTS 为例）

选择配音渠道
在主界面“配音渠道”下拉框中，选择 ChatterBox-TTS（本地内置）。
（若第一次使用，软件会自动下载模型，请保持网络畅通等待完成）
设置语言
确保“目标语言”已选择俄语（俄语代码 ru）。
在“配音角色”下拉框中，查看是否有多个俄语发音角色（例如女声、男声等）。如果有多个，选择一个作为默认角色。
开启单视频交互模式
- 只选择一个视频文件（不要勾选“文件夹”或一次选多个视频）。
- 点击菜单 → 工具 → 高级选项 → 通用设置，确保 “单视频交互翻译暂停倒计时” 不为 0（推荐设为 10 秒或更大）。
开始执行
点击主界面 【开始执行】 按钮。
当处理到“字幕翻译完成后”时，会自动弹出 角色分配窗口（标题类似“字幕编辑与角色分配”）。
分配角色
在角色分配窗口中，每一行字幕右侧都有一个下拉框。
- 为不同的台词选择不同的俄语发音角色（例如第一句选“女声”，第二句选“男声”）。
- 分配完毕后点击 “确定”。
等待完成
软件会继续后续流程，最终输出的视频将包含多角色配音的俄语声音。

如果 ChatterBox-TTS 的俄语音色不够多

可改用 Qwen-TTS（本地内置），同样免费且支持俄语。操作步骤同上，只需将“配音渠道”改为 Qwen-TTS（本地内置） 即可。Qwen-TTS 也包含多个内置音色（如女性、男性等），可在角色分配窗口中选择。

为何推荐这两个渠道

渠道	免费	俄语	多角色（多个音色）	是否需要部署
ChatterBox-TTS	✅	✅	✅（内置多个）	❌ 无需部署
Qwen-TTS	✅	✅	✅（内置多个）	❌ 无需部署
Edge-TTS	✅	✅	❌ 仅单角色	❌ 无需部署
GPT-SoVITS	免费但需部署	不支持俄语	✅	需要部署

因此，ChatterBox-TTS 是当前最满足您三个需求的开箱即用方案。

如果仍遇到问题

检查角色分配窗口是否真的弹出（若倒计时为 0 则不会弹出）。
确保在角色分配窗口中为不同字幕确实选择了不同角色。
如果配音角色下拉框中只有一个俄语选项，说明该渠道的俄语音色仅有单角色，此时请尝试另一个渠道（Qwen-TTS）。
提供软件 logs/ 目录下最新日志底部 30 行，以便进一步排查。

Floor #26 66.90* reply at 1 month ago

多人配音怎么弄到底，详细点说

Floor #27 DeepSeek reply at 1 month ago

要实现多人配音（不同台词分配不同声音），您必须同时满足三个条件：一次只处理一个视频、选择支持多角色的配音渠道、开启交互暂停窗口。以下是最详细的操作流程（以 ChatterBox-TTS 为例，免费、支持俄语、内置多个音色）。

✅ 准备工作（务必确认）

软件版本：pyVideoTrans ≥ v3.74（旧版本可能无此功能）
配音渠道：主界面“配音渠道”必须选 ChatterBox-TTS（本地内置）（或 Qwen-TTS（本地内置））
目标语言：选 俄语（若您需要其他语言也支持）
视频数量：必须只选1个视频（不要勾选“文件夹”，不要一次拖入多个文件）
交互暂停开启：菜单 → 工具 → 高级选项 → 通用设置 → “单视频交互翻译暂停倒计时” 设置为 10（或大于0的数字）

📋 详细步骤（共7步，每一步都不可跳过）

第1步：选择文件
点击“选择音频或视频”，只选中 1个视频文件（如 test.mp4）。

第2步：设置语音识别和翻译渠道（按需选即可，不影响多角色）

第3步：设置配音渠道

配音渠道：ChatterBox-TTS（本地内置）
配音角色：随便选一个（例如第一个俄语音色），后面会改
不要勾选“clone”

第4步：开始执行
点击主界面下方 【开始执行】 按钮。

第5步：等待字幕翻译完成
软件会依次执行：预处理 → 语音识别 → 说话人分离 → 字幕翻译。

第6步：弹出角色分配窗口（关键）
字幕翻译完成后，会自动弹出一个新窗口，标题类似 “若为新分配角色，点击确定继续”。

窗口里每一行都对应一条字幕，右侧有一个 配音角色下拉框
您需要 为不同的台词分别选择不同的角色（例如第一行选“女声”，第二行选“男声”）
分配完成后，点击窗口底部的 “确定” 按钮

第7步：等待后续处理
软件继续配音、对齐、合成。最终输出视频中，不同台词就会由不同角色朗读。

❗ 常见失败检查清单（按顺序核对）

只选了一个视频吗？
→ 多选视频不会弹出角色分配窗口，必须单视频。
倒计时设置了吗？
→ 菜单 → 工具 → 高级选项 → 通用设置 → “单视频交互翻译暂停倒计时” 必须≥1（推荐10）。
配音渠道是支持多角色的吗？
→ ChatterBox-TTS、Qwen-TTS、GPT-SoVITS、F5-TTS、CosyVoice、OmniVoice 支持。
→ Edge-TTS、Piper、VITS 不支持（只能用一个声音）。
角色分配窗口弹出了吗？
→ 如果没有弹出，检查第2点；如果弹出了但只有一个角色可选，说明该渠道的俄语音色只有一个，请换用 Qwen-TTS（本地内置） 重试（步骤完全一样）。
确定点击了吗？
→ 分配完后必须点击“确定”，否则软件会等待超时后自动继续，使用默认角色。

🆘 如果仍然失败

请提供软件根目录下 logs 文件夹中最新日志文件的底部 30行 内容，我可以帮您定位具体是哪一步卡住了。