#2104 请问目前最新版本支持哪几款本地部署克隆音频软件,哪款的克隆效果既好又快还不吃显卡?

240a:42b2* Posted at: 2 hours ago 👁9

请问目前最新版本支持哪几款本地部署克隆音频软件,哪款的克隆效果既好又快还不吃显卡?

5 Replies

根据 pyVideoTrans 官方文档和最新版本 (v3.90) 的信息,目前支持的本地部署语音克隆软件主要有以下几款:

  1. GPT-SoVITS:效果公认较好,支持少量样本快速微调,对显卡要求相对友好。
  2. F5-TTS:较新的模型,效果出色,推理速度较快。
  3. CosyVoice:阿里巴巴的模型,效果优秀,支持中英文。
  4. ChatterBox:效果不错,集成在软件中。
  5. Kokoro-TTS:支持多语言,效果较好。

关于“效果好、速度快、不吃显卡”的推荐:
没有一款模型能同时完美满足这三个条件,这是一个“不可能三角”。但可以给出折中建议:

  • 综合推荐 GPT-SoVITS:它在效果、速度和资源消耗之间取得了较好的平衡。通过其 WebUI 进行几分钟语音的微调后,可以在 pyVideoTrans 中达到不错的克隆效果,对显卡(显存)的要求在主流消费级显卡(如 RTX 3060 6G)上基本可接受。
  • 追求速度可尝试 F5-TTS 或 CosyVoice:它们的推理(生成语音)速度通常较快,但效果和资源消耗因具体模型版本和配置而异。
  • 降低显存消耗的关键:无论选择哪款,在 pyVideoTrans 的“高级选项”中,确保勾选“CUDA加速”,但可以将相关模型的推理精度设置为 float16int8(如果模型支持),这能显著减少显存占用并提升速度,效果损失很小。

操作步骤:

  1. 您需要先独立部署上述任意一款克隆软件的模型和服务(通常会有独立的 GitHub 项目或 WebUI)。
  2. 在 pyVideoTrans 的“配音”角色列表中,选择对应的“Clone”角色(如 GPTSoVITS),并在其设置中填入您本地部署的服务 API 地址(通常是 http://127.0.0.1:端口号)。

建议从 GPT-SoVITS 开始尝试,其社区教程和资源最为丰富。

CosyVoice3怎么样?

根据 pyVideoTrans 官方文档和 CosyVoice 项目的最新信息,CosyVoice 是阿里巴巴推出的高质量语音生成与克隆模型,其最新版本 CosyVoice-3 在效果和性能上相比早期版本有显著提升。

关于 CosyVoice-3 在 pyVideoTrans 中的表现评估:

  1. 效果非常好。CosyVoice-3 在官方评测和社区反馈中,其语音自然度、音色相似度和情感表现都处于第一梯队,尤其擅长中文,对英文的支持也相当不错。
  2. 速度较快。其推理速度经过优化,在支持 CUDA 的显卡上生成语音的效率很高,能满足视频翻译配音的时效性要求。
  3. 资源消耗(“吃显卡”)相对友好,但并非不吃显卡。这是需要明确的一点:

    • 显存方面:相比一些庞大的传统 TTS 模型,CosyVoice-3 的模型大小和推理优化做得较好,对显存的要求属于中等水平。在 RTX 3060 6G 或更高规格的显卡上运行通常没有问题。
    • 关键优化:您可以在其部署工具或 pyVideoTrans 的高级选项中,将推理精度设置为 fp16(半精度),这能大幅减少显存占用并进一步提升速度,而对音质的影响微乎其微。

结论与建议:
CosyVoice-3 是当前效果、速度和资源消耗平衡性极佳的选择之一,非常值得尝试。 如果您已经部署了 CosyVoice-3 服务,在 pyVideoTrans 中使用它是个好主意。

在 pyVideoTrans 中使用的步骤:

  1. 确保您已成功在本地或服务器上部署了 CosyVoice-3 的推理 API 服务。
  2. 在 pyVideoTrans 主界面,配音角色选择 CosyVoice
  3. 点击角色右侧的 设置 按钮,在弹出的窗口中填写您本地 CosyVoice-3 服务的 API 地址(例如 http://127.0.0.1:8000)。
  4. 选择您想要克隆的音色角色。
  5. 强烈建议:前往 工具 -> 选项 -> 高级选项,在相关区域确认或设置 CUDA 加速和 fp16 精度,以优化性能和资源占用。

如果您在部署或使用 CosyVoice-3 过程中遇到具体问题(如连接失败、报错),请提供更详细的日志或错误信息,以便进一步分析。

我需要中文 英文 韩文 日文的克隆配音 请问用哪一款?本地部署克隆软件?

根据您的多语言(中文、英文、韩文、日文)克隆配音需求,在 pyVideoTrans 目前支持的本地部署方案中,推荐如下:

首选推荐:GPT-SoVITS

  • 多语言支持:GPT-SoVITS 官方版本已支持中文、英文、日语的语音克隆与合成。对于韩语,社区有相关扩展和尝试,但原生支持可能不如前三者成熟,效果需要实测。
  • 效果与资源平衡:在效果、速度和显存消耗之间取得了很好的平衡,社区资源最丰富,教程最多,遇到问题容易找到解决方案。
  • 在 pyVideoTrans 中的使用:集成良好,选择“GPTSoVITS”角色并配置本地API地址即可。

备选方案:CosyVoice

  • 多语言支持:官方强调其优秀的中英文能力。对于日语和韩语,虽然其基础模型具备多语言能力,但针对后两者的克隆效果和优化信息不如中英文明确,需要您自行测试。
  • 特点:由阿里巴巴开发,效果出色,推理速度可能更快。

其他方案:

  • F5-TTS / Kokoro-TTS:它们也具备多语言能力,但具体对韩语、日语克隆的支持深度和易用性,需要查阅其各自项目文档进行确认。

给您的明确行动建议:

  1. 从 GPT-SoVITS 开始:这是满足您中、英、日三语需求最稳妥、社区支持最好的选择。请先部署它。
  2. 单独测试韩语:在部署好 GPT-SoVITS 后,使用韩语语音样本进行克隆和合成测试,评估效果是否满足您的要求。
  3. 如果韩语效果不理想:再考虑部署 CosyVoiceKokoro-TTS,专门用于韩语任务,然后在 pyVideoTrans 中通过“字幕多角色配音”工具,为不同语言的字幕行分配不同的TTS引擎(例如,中英日使用GPT-SoVITS,韩语使用CosyVoice)。

部署与使用核心步骤:

  1. 部署克隆软件:从 GitHub 克隆 GPT-SoVITS 等项目,按照其官方文档在您的电脑上安装依赖并启动 WebUI 及 API 服务。
  2. 在 pyVideoTrans 中配置

    • 主界面“配音”角色选择“GPTSoVITS”。
    • 点击“设置”,填入本地 API 地址(如 http://127.0.0.1:9880)。
    • 在“音色”下拉列表中选择您事先在 GPT-SoVITS WebUI 中训练好的克隆模型。
  3. 进行翻译配音:正常执行视频翻译流程,软件会自动调用您配置的本地克隆服务进行配音。

重要提醒

  • 任何本地语音克隆都需要您提供目标音色的清晰语音样本(通常需要几分钟的干净语音)进行模型微调(训练),才能得到克隆效果。
  • 多语言克隆的效果,尤其是韩语和日语,强烈依赖于您所用克隆模型本身的多语言训练数据。请在部署前,仔细阅读您所选项目关于多语言支持的说明。
Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Donate: https://ko-fi.com/jianchang512

Trending Questions