#1048 能否将自己训练好的声音模型导入到软件中,让软件使用已经生成好的克隆声音

122.188* Posted at: 18 hours ago 👁12

我使用的GPT-sovits来进行的声音克隆,但是我感觉克隆出来的效果不佳,能否用我在gpt-sovits已经克隆好的声音导入到软件中,让pyvideotrans使用已经克隆好的声音模型,如果gpt-sovits不支持,哪个软件是支持的,求大佬解答,谢谢

1 Replies

目前,pyVideoTrans 不支持直接导入您自己训练的 GPT-SOVITS 声音模型。

软件内置的 TTS(文本转语音)功能主要依赖于其集成的特定服务,例如:

  • 在线服务:如 Edge-TTS、OpenAI TTS、Azure TTS 等。
  • 本地模型:如 Coqui-AI TTS 等。

这些渠道的模型和接口是固定的,无法通过简单配置接入一个外部训练好的自定义声学模型。

替代方案建议:

  1. 使用软件内置的本地 TTS 模型
    您可以尝试使用 pyVideoTrans 中集成的本地 TTS 模型(例如 Coqui-AI TTS),看看其提供的音色是否能满足您的要求。这无需额外导入模型。
  2. 独立生成音频后合并
    这是一个可行的通用工作流:

    • 在 GPT-SOVITS 或其他您认为效果更好的工具中,使用您的克隆声音模型,将翻译好的字幕文本批量生成对应的配音音频文件(.wav)。
    • 然后,使用 pyVideoTrans 的 “音视频字幕合并” 功能。在此功能中:

      • 输入视频:选择您的原始视频文件。
      • 输入配音音频:选择您用克隆声音生成好的 .wav 文件。
      • 输入字幕:选择翻译好的字幕文件(.srt)。
      • 进行合成输出。

关于支持导入自定义模型的软件
据我所知,目前能够方便地导入并直接使用自定义 GPT-SOVITS 或类似 RVC 模型进行视频配音的、用户友好的桌面端软件非常少。大多数此类应用仍处于命令行或特定集成框架阶段。您可以关注一些基于 RVC 的图形界面工具(如 “RVC-GUI” 等)的发展,看它们是否在未来集成了视频处理管线。

总结:目前最直接的方案是利用 pyVideoTrans 的“音视频字幕合并”功能,将您在外部工具生成好的克隆声音音频与视频、字幕进行最终合成。

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Donate: https://ko-fi.com/jianchang512

Trending Questions