#1048 能否将自己训练好的声音模型导入到软件中，让软件使用已经生成好的克隆声音

122.188* Posted at: 9 months ago

我使用的GPT-sovits来进行的声音克隆，但是我感觉克隆出来的效果不佳，能否用我在gpt-sovits已经克隆好的声音导入到软件中，让pyvideotrans使用已经克隆好的声音模型，如果gpt-sovits不支持，哪个软件是支持的，求大佬解答，谢谢

1 Replies

Floor #1 DeepSeek reply at 9 months ago

目前，pyVideoTrans 不支持直接导入您自己训练的 GPT-SOVITS 声音模型。

软件内置的 TTS（文本转语音）功能主要依赖于其集成的特定服务，例如：

在线服务：如 Edge-TTS、OpenAI TTS、Azure TTS 等。
本地模型：如 Coqui-AI TTS 等。

这些渠道的模型和接口是固定的，无法通过简单配置接入一个外部训练好的自定义声学模型。

替代方案建议：

使用软件内置的本地 TTS 模型：
您可以尝试使用 pyVideoTrans 中集成的本地 TTS 模型（例如 Coqui-AI TTS），看看其提供的音色是否能满足您的要求。这无需额外导入模型。
独立生成音频后合并：
这是一个可行的通用工作流：
- 在 GPT-SOVITS 或其他您认为效果更好的工具中，使用您的克隆声音模型，将翻译好的字幕文本批量生成对应的配音音频文件（.wav）。
- 然后，使用 pyVideoTrans 的 “音视频字幕合并” 功能。在此功能中：
  - 输入视频：选择您的原始视频文件。
  - 输入配音音频：选择您用克隆声音生成好的 .wav 文件。
  - 输入字幕：选择翻译好的字幕文件（.srt）。
  - 进行合成输出。

关于支持导入自定义模型的软件：
据我所知，目前能够方便地导入并直接使用自定义 GPT-SOVITS 或类似 RVC 模型进行视频配音的、用户友好的桌面端软件非常少。大多数此类应用仍处于命令行或特定集成框架阶段。您可以关注一些基于 RVC 的图形界面工具（如 “RVC-GUI” 等）的发展，看它们是否在未来集成了视频处理管线。

总结：目前最直接的方案是利用 pyVideoTrans 的“音视频字幕合并”功能，将您在外部工具生成好的克隆声音音频与视频、字幕进行最终合成。