#4727 怎么克隆原视频有多个人说话的声音，克隆后该怎么使用

104.248* Posted at: 2 months ago

怎么克隆原视频有多个人说话的声音，多人的声音都可以克隆吗，克隆后就会以视频原本的音色说翻译后的语音吗，可以的话又该怎么使用？

Floor #1 DeepSeek reply at 2 months ago

这是可以实现的。pyVideoTrans 支持基于原视频的多角色声音克隆配音，但需要一些配置步骤。

核心原理

当你选择支持声音克隆的配音渠道（如 F5-TTS、OmniVoice、CosyVoice、GPT-SoVITS 等），并在配音角色中选择 clone，软件会自动以视频中对应说话人的语音片段作为参考音频来合成翻译后的语音，从而保留原始音色。
若要区分多个说话人，必须先启用说话人分离功能，才能将克隆音色分配给不同角色。

操作步骤（以单视频交互模式为佳）

启用说话人分离
- 主界面菜单 → 工具/选项 → 高级选项 → 语音识别参数
- 在“说话人分离模型”中选择 内置模型 或 pyannote（更优，需 HuggingFace token）。
- 根据需要设置“预计说话人数量”。
最佳克隆参数（在高级选项同一区域设置）
- 最短语音持续毫秒 = 3000（3秒以上，克隆效果更稳定）
- 最长语音持续秒数 = 10
- 勾选 Whisper预分割音频
- 勾选 合并过短字幕到相邻
选择配音渠道与克隆角色
- 主界面：发音语言选择原视频语言，目标语言选择翻译目标语言。
- 配音渠道选择支持 clone 的渠道，如 F5-TTS、OmniVoice 等。
- 在“配音角色”下拉列表中选中 clone。
执行单视频翻译（确保只选一个视频）
- 启动任务，软件会依次暂停进行交互编辑：
  a. 语音识别后 → 编辑原始字幕（可确认说话人标签）。
  b. 字幕翻译后 → 弹出角色分配窗口，为每个说话人分别选择 clone 角色（系统自动分配同名克隆角色）。
  c. 配音生成后 → 可试听并微调。
完成：最终视频将使用每个说话人自己的原始音色说出翻译后的语言。

注意事项

多人声音克隆可行，但要求每位说话人的有效语音片段时长 ≥ 3 秒且清晰，否则可能失败或音色失真。
非交互批量模式下无法逐句分配角色，建议用单视频交互模式或使用左侧工具栏的 “字幕多角色配音” 功能手动导入字幕并分配克隆角色。
如果部分说话人声音过短，可改用 OmniVoice-TTS 渠道，它对短参考音频容忍度更高。

请查阅相关文档：

Floor #2 104.248* reply at 2 months ago

支持声音克隆的配音渠道都需要api？没有本地可以运行的吗

Floor #3 DeepSeek reply at 2 months ago

有。最方便的是 Qwen3-TTS(本地内置)，它直接集成在软件内，无需额外部署 API 服务，选择后即可使用声音克隆。

其他支持克隆的本地渠道（如 F5-TTS、CosyVoice、GPT-SoVITS 等）虽然标注为“本地API”，确实需要你额外在本机部署对应的后端服务（例如运行一个独立的 Python 程序），但这些服务也是完全离线的，不依赖外网。总结：

不想折腾 → 用 Qwen3-TTS(本地内置)，开箱即用。
愿意部署 → 可选 F5-TTS、CosyVoice 等，效果可能更好，但需自行下载模型并启动服务。

请查阅相关文档：

Floor #4 104.248* reply at 2 months ago

使用Qwen3-TTS(本地内置)，字幕翻译后 → 弹出角色分配窗口还是要自己手动选择？

Floor #5 DeepSeek reply at 2 months ago

是的，字幕翻译后弹出的角色分配窗口需要你手动为每个说话人选择对应的配音角色。如果该渠道支持 clone，你可以在下拉列表中选择 clone 选项，软件会自动使用该说话人原始音色进行配音。

不过需要注意的是，根据知识库说明，明确支持 clone 的本地渠道包括 OmniVoice(本地)、Qwen-TTS(本地) 等。Qwen3-TTS(本地内置) 作为内置版本，其角色列表中是否有 clone 选项，建议你先在主界面的“配音角色”下拉列表中检查是否有 clone 条目。如果没有，则说明该渠道暂不支持原声克隆。

总结：

确认 Qwen3-TTS(本地内置) 是否支持 clone（查看角色列表）。
如果支持，在弹出窗口为每个说话人手动选择 clone。
如果不支持，可换用 OmniVoice(本地) 等明确支持 clone 的本地渠道（需部署 API 服务）。

Floor #6 Admin reply at 2 months ago

选择clone音色即可，无需说话人分离，也无需按字幕指定音色。

如果不使用clone音色，则需要说话人分离，然后单视频模式下按说话人或每条字幕指定角色

Floor #7 104.248* reply at 2 months ago

下载了clone-voice，解压后双击 app.exe也启动成功了，菜单--TTS设置--没有原音色克隆 clone-voice 这个选项

Floor #8 DeepSeek reply at 2 months ago

根据知识库，clone-voice 是一个独立的 TTS 配音渠道（对应渠道序号27），需要先启动 clone-voice 的服务（app.exe），然后在 pyVideoTrans 软件中进行相应配置才能使用。但知识库中并未详细说明如何在 pyVideoTrans 的菜单中找到该选项。最可能的原因是：你需要通过主界面的“配音渠道”下拉列表直接选择 clone-voice，而不是在菜单→TTS设置中寻找（后者是给其他特定渠道用的）。请在主界面“配音渠道”下拉列表中检查是否有 clone-voice 选项。如果仍找不到，请查阅官方文档获取详细配置步骤：声音克隆工具 clone-voice 安装声音克隆工具 clone-voice

#4727 怎么克隆原视频有多个人说话的声音，克隆后该怎么使用

8 Replies

核心原理

操作步骤（以单视频交互模式为佳）

注意事项

请查阅相关文档：

请查阅相关文档：

Post Your Reply

Related resource