#2104 请问目前最新版本支持哪几款本地部署克隆音频软件,哪款的克隆效果既好又快还不吃显卡?

240a:42b2* Posted at: 20 days ago 👁108

请问目前最新版本支持哪几款本地部署克隆音频软件,哪款的克隆效果既好又快还不吃显卡?

17 Replies

根据 pyVideoTrans 官方文档和最新版本 (v3.90) 的信息,目前支持的本地部署语音克隆软件主要有以下几款:

  1. GPT-SoVITS:效果公认较好,支持少量样本快速微调,对显卡要求相对友好。
  2. F5-TTS:较新的模型,效果出色,推理速度较快。
  3. CosyVoice:阿里巴巴的模型,效果优秀,支持中英文。
  4. ChatterBox:效果不错,集成在软件中。
  5. Kokoro-TTS:支持多语言,效果较好。

关于“效果好、速度快、不吃显卡”的推荐:
没有一款模型能同时完美满足这三个条件,这是一个“不可能三角”。但可以给出折中建议:

  • 综合推荐 GPT-SoVITS:它在效果、速度和资源消耗之间取得了较好的平衡。通过其 WebUI 进行几分钟语音的微调后,可以在 pyVideoTrans 中达到不错的克隆效果,对显卡(显存)的要求在主流消费级显卡(如 RTX 3060 6G)上基本可接受。
  • 追求速度可尝试 F5-TTS 或 CosyVoice:它们的推理(生成语音)速度通常较快,但效果和资源消耗因具体模型版本和配置而异。
  • 降低显存消耗的关键:无论选择哪款,在 pyVideoTrans 的“高级选项”中,确保勾选“CUDA加速”,但可以将相关模型的推理精度设置为 float16int8(如果模型支持),这能显著减少显存占用并提升速度,效果损失很小。

操作步骤:

  1. 您需要先独立部署上述任意一款克隆软件的模型和服务(通常会有独立的 GitHub 项目或 WebUI)。
  2. 在 pyVideoTrans 的“配音”角色列表中,选择对应的“Clone”角色(如 GPTSoVITS),并在其设置中填入您本地部署的服务 API 地址(通常是 http://127.0.0.1:端口号)。

建议从 GPT-SoVITS 开始尝试,其社区教程和资源最为丰富。

CosyVoice3怎么样?

根据 pyVideoTrans 官方文档和 CosyVoice 项目的最新信息,CosyVoice 是阿里巴巴推出的高质量语音生成与克隆模型,其最新版本 CosyVoice-3 在效果和性能上相比早期版本有显著提升。

关于 CosyVoice-3 在 pyVideoTrans 中的表现评估:

  1. 效果非常好。CosyVoice-3 在官方评测和社区反馈中,其语音自然度、音色相似度和情感表现都处于第一梯队,尤其擅长中文,对英文的支持也相当不错。
  2. 速度较快。其推理速度经过优化,在支持 CUDA 的显卡上生成语音的效率很高,能满足视频翻译配音的时效性要求。
  3. 资源消耗(“吃显卡”)相对友好,但并非不吃显卡。这是需要明确的一点:

    • 显存方面:相比一些庞大的传统 TTS 模型,CosyVoice-3 的模型大小和推理优化做得较好,对显存的要求属于中等水平。在 RTX 3060 6G 或更高规格的显卡上运行通常没有问题。
    • 关键优化:您可以在其部署工具或 pyVideoTrans 的高级选项中,将推理精度设置为 fp16(半精度),这能大幅减少显存占用并进一步提升速度,而对音质的影响微乎其微。

结论与建议:
CosyVoice-3 是当前效果、速度和资源消耗平衡性极佳的选择之一,非常值得尝试。 如果您已经部署了 CosyVoice-3 服务,在 pyVideoTrans 中使用它是个好主意。

在 pyVideoTrans 中使用的步骤:

  1. 确保您已成功在本地或服务器上部署了 CosyVoice-3 的推理 API 服务。
  2. 在 pyVideoTrans 主界面,配音角色选择 CosyVoice
  3. 点击角色右侧的 设置 按钮,在弹出的窗口中填写您本地 CosyVoice-3 服务的 API 地址(例如 http://127.0.0.1:8000)。
  4. 选择您想要克隆的音色角色。
  5. 强烈建议:前往 工具 -> 选项 -> 高级选项,在相关区域确认或设置 CUDA 加速和 fp16 精度,以优化性能和资源占用。

如果您在部署或使用 CosyVoice-3 过程中遇到具体问题(如连接失败、报错),请提供更详细的日志或错误信息,以便进一步分析。

我需要中文 英文 韩文 日文的克隆配音 请问用哪一款?本地部署克隆软件?

根据您的多语言(中文、英文、韩文、日文)克隆配音需求,在 pyVideoTrans 目前支持的本地部署方案中,推荐如下:

首选推荐:GPT-SoVITS

  • 多语言支持:GPT-SoVITS 官方版本已支持中文、英文、日语的语音克隆与合成。对于韩语,社区有相关扩展和尝试,但原生支持可能不如前三者成熟,效果需要实测。
  • 效果与资源平衡:在效果、速度和显存消耗之间取得了很好的平衡,社区资源最丰富,教程最多,遇到问题容易找到解决方案。
  • 在 pyVideoTrans 中的使用:集成良好,选择“GPTSoVITS”角色并配置本地API地址即可。

备选方案:CosyVoice

  • 多语言支持:官方强调其优秀的中英文能力。对于日语和韩语,虽然其基础模型具备多语言能力,但针对后两者的克隆效果和优化信息不如中英文明确,需要您自行测试。
  • 特点:由阿里巴巴开发,效果出色,推理速度可能更快。

其他方案:

  • F5-TTS / Kokoro-TTS:它们也具备多语言能力,但具体对韩语、日语克隆的支持深度和易用性,需要查阅其各自项目文档进行确认。

给您的明确行动建议:

  1. 从 GPT-SoVITS 开始:这是满足您中、英、日三语需求最稳妥、社区支持最好的选择。请先部署它。
  2. 单独测试韩语:在部署好 GPT-SoVITS 后,使用韩语语音样本进行克隆和合成测试,评估效果是否满足您的要求。
  3. 如果韩语效果不理想:再考虑部署 CosyVoiceKokoro-TTS,专门用于韩语任务,然后在 pyVideoTrans 中通过“字幕多角色配音”工具,为不同语言的字幕行分配不同的TTS引擎(例如,中英日使用GPT-SoVITS,韩语使用CosyVoice)。

部署与使用核心步骤:

  1. 部署克隆软件:从 GitHub 克隆 GPT-SoVITS 等项目,按照其官方文档在您的电脑上安装依赖并启动 WebUI 及 API 服务。
  2. 在 pyVideoTrans 中配置

    • 主界面“配音”角色选择“GPTSoVITS”。
    • 点击“设置”,填入本地 API 地址(如 http://127.0.0.1:9880)。
    • 在“音色”下拉列表中选择您事先在 GPT-SoVITS WebUI 中训练好的克隆模型。
  3. 进行翻译配音:正常执行视频翻译流程,软件会自动调用您配置的本地克隆服务进行配音。

重要提醒

  • 任何本地语音克隆都需要您提供目标音色的清晰语音样本(通常需要几分钟的干净语音)进行模型微调(训练),才能得到克隆效果。
  • 多语言克隆的效果,尤其是韩语和日语,强烈依赖于您所用克隆模型本身的多语言训练数据。请在部署前,仔细阅读您所选项目关于多语言支持的说明。

CosyVoice-3 集成显卡能用吗

不能,或者效果极差,不推荐。

CosyVoice-3 作为先进的深度学习模型,强烈依赖 NVIDIA 显卡的 CUDA 核心进行加速计算。集成显卡(无论是 Intel 还是 AMD 的核显)无法满足其运行要求,原因如下:

  1. 缺乏 CUDA 支持:CosyVoice-3 的 PyTorch 框架主要使用 CUDA 进行 GPU 加速。集成显卡不支持 CUDA。
  2. 算力严重不足:即使通过某些方式在 CPU 上运行,其计算速度将极其缓慢(生成几秒语音可能需要几分钟甚至更久),完全无法用于视频配音的实用场景。
  3. 内存压力巨大:模型加载和推理会消耗大量系统内存(RAM),容易导致程序崩溃或系统卡死。

您的可行方案:

  • 方案一(首选):使用支持 CPU 推理的轻量级 TTS
    在 pyVideoTrans 中,选择以下内置的、对集成显卡友好的配音方案:

    • VITS-cnen:本地模型,支持中英文,CPU 推理速度尚可。
    • Piper-TTS:本地模型,支持多语言,CPU 效率较高。
    • Edge-TTS:使用微软在线服务,质量好、免费,但需要网络。
  • 方案二:使用在线语音克隆 API(如果必须克隆)
    考虑使用在线 API 服务,将计算负载转移到服务器端,例如:

    • ElevenLabs(付费):克隆效果顶级,支持多语言。
    • Azure TTS(付费):支持自定义神经语音,需提前在云端训练音色。
    • 注意:pyVideoTrans 支持这些 API,但您需要自行注册并获取密钥。
  • 方案三:升级硬件
    如果本地语音克隆是硬性需求,最根本的解决方案是配备一块 NVIDIA 独立显卡(如 GTX 1650 或更高型号,显存4G以上)。

结论:对于集成显卡用户,请放弃本地部署 CosyVoice-3、GPT-SoVITS 等大型克隆模型的念头。 您的优选路径是使用 pyVideoTrans 内置的 VITS-cnenPiper-TTS 进行本地合成,或者使用 Edge-TTS 在线服务。

GPT-SoVITS怎么部署

以下是 GPT-SoVITS 在 Windows 系统上部署的简明步骤,以便您在 pyVideoTrans 中使用。整个过程分为 部署服务在 pyVideoTrans 中配置 两部分。

第一部分:部署 GPT-SoVITS 服务

  1. 获取软件

    • 访问 GPT-SoVITS 官方仓库:https://github.com/RVC-Boss/GPT-SoVITS
    • Releases 页面下载最新的整合包(通常名为 GPT-SoVITS-beta.zip 或类似)。这是最简单的方式,解压即用。
  2. 解压与准备

    • 将下载的压缩包解压到一个纯英文路径的目录中,例如 D:\GPT-SoVITS
    • 重要:路径中不要包含中文、空格或特殊符号。
  3. 启动 WebUI(训练与推理界面)

    • 进入解压后的目录,双击运行 启动WebUI.bat
    • 首次运行会自动下载必要的模型文件(约几个GB),请保持网络通畅并耐心等待。
    • 完成后,浏览器会自动打开 http://127.0.0.1:9874 的 Web 界面。
  4. 训练您的音色模型(克隆)

    • 在 WebUI 的 1-GPT-SoVITS-TTS 页面:

      • 语音素材:准备 5-10 分钟目标音色的清晰语音(.wav格式),放入一个文件夹。
      • 切分与标注:使用 语音切分 工具自动切分长音频,然后进行 语音识别 生成文本标注。
      • 微调训练:分别进行 SOVITS微调GPT微调。这是最耗时的步骤,取决于您的显卡性能。
    • 训练完成后,模型会自动保存在 GPT_SoVITS\assets 目录下。
  5. 启动 API 服务(关键步骤)

    • 在 WebUI 的顶部或侧边栏找到 API/CLI一键启动API 按钮并点击。
    • 成功启动后,您会看到类似 Running on http://127.0.0.1:9880 的提示。请记住这个地址和端口(默认9880)

第二部分:在 pyVideoTrans 中配置

  1. 打开配置

    • 运行 pyVideoTrans。
    • 在主界面“配音”区域,点击角色下拉菜单,选择 GPTSoVITS
  2. 设置 API 地址

    • 点击角色右侧的 设置 按钮。
    • 在弹出的窗口中,将 API地址 填写为第一步中启动的 API 服务地址,即 http://127.0.0.1:9880
    • 点击“测试”按钮,如果显示连接成功,则配置正确。
  3. 选择音色并配音

    • 配置成功后,在“音色”下拉菜单中,您会看到您在 GPT-SoVITS WebUI 中训练好的模型名称。
    • 选择它,之后在翻译视频时,软件就会调用您本地的 GPT-SoVITS 服务进行克隆配音了。

常见问题与提示

  • 端口冲突:如果 9880 端口被占用,您需要在启动 GPT-SoVITS API 时指定其他端口(如 --port 9881),并在 pyVideoTrans 设置中对应修改。
  • 确保服务运行:在使用 pyVideoTrans 进行配音前,务必确保 GPT-SoVITS 的 API 服务正在运行(即那个黑色的命令窗口不能关闭)。
  • 首次使用:建议先在 GPT-SoVITS 的 WebUI 的 TTS推理 页面测试您的模型是否能正常合成语音,再在 pyVideoTrans 中进行完整流程。
  • 性能:在 pyVideoTrans 的 工具 -> 选项 -> 高级选项 中,确保已启用 CUDA 加速以获得最佳速度。

按照以上步骤,您应该能成功部署并连接 GPT-SoVITS。如果在部署 API 服务或连接测试时遇到具体错误,请提供错误信息以便进一步排查。

IndexTTS 怎么部署

根据 pyVideoTrans 官方文档和 IndexTTS 项目信息,部署 IndexTTS 并将其接入 pyVideoTrans 的步骤如下。请注意,IndexTTS 是一个独立的开源项目,您需要先完成其本地部署。

第一部分:部署 IndexTTS 服务

1. 获取项目
访问 IndexTTS 的官方 GitHub 仓库:

https://github.com/netease-youdao/EmotiVoice

注意:IndexTTS 是 EmotiVoice 项目的一部分或与其密切相关。请确保您下载或克隆的是正确的代码。

2. 环境准备 (Windows 示例)

  • 强烈建议使用 Conda 创建独立的 Python 环境以避免依赖冲突。

    conda create -n indextts python=3.10
    conda activate indextts
  • 安装 PyTorch (带 CUDA,如果您有 NVIDIA 显卡):

    pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
  • 进入项目目录,安装其他依赖:

    pip install -r requirements.txt

3. 下载模型
根据项目 README.md 的说明,下载预训练的 IndexTTS 模型文件,通常需要从 Hugging Face 或百度网盘获取,并放置到指定的 modelcheckpoints 目录下。

4. 启动 API 服务
IndexTTS 项目通常提供或可以通过修改代码来创建一个简单的 HTTP API 服务。您需要找到一个 api.pyserver.py 或类似的文件,或者根据项目说明自行编写一个。

  • 运行服务后,它通常会监听一个本地端口,例如 http://127.0.0.1:8000
  • 核心是确保该服务提供一个 HTTP 接口,能够接收文本并返回合成音频(如 WAV 格式)。pyVideoTrans 将向这个接口发送请求。

第二部分:在 pyVideoTrans 中配置

1. 选择配音角色
在 pyVideoTrans 主界面“配音”区域,点击角色下拉菜单,选择 IndexTTS

2. 配置 API 地址
点击角色右侧的 设置 按钮。
在弹出的窗口中,将 API地址 填写为您本地启动的 IndexTTS API 服务地址,例如 http://127.0.0.1:8000
点击 测试 按钮。如果显示“连接成功”或类似提示,则配置正确。

3. 选择音色 (如果支持)
如果您的 IndexTTS 服务支持多音色,配置成功后,在“音色”下拉菜单中应该会出现可选的音色列表,选择您想要使用的一个。

重要提示与常见问题

  • 服务是关键:在使用 pyVideoTrans 进行配音前,务必确保 IndexTTS 的 API 服务正在后台运行(即命令行窗口不能关闭)。
  • 端口与路径:确保 API 地址的端口号与您启动服务时指定的端口一致。路径中不要包含中文或特殊字符。
  • 首次测试:强烈建议先使用 curl 或 Python 脚本直接测试您的 IndexTTS API 服务是否能正常接收文本并返回音频,再在 pyVideoTrans 中进行完整流程测试。
  • 官方整合包:pyVideoTrans 的官方网站或社区有时会提供热门 TTS 引擎(如 IndexTTS)的“一键整合包”,这可以极大简化部署过程。建议您优先搜索 pyvideotrans.com 查看是否有相关资源。
  • 克隆功能:IndexTTS 的主要优势在于高质量语音合成,其语音克隆(自定义音色)功能可能不如 GPT-SoVITS 或 CosyVoice 那样直接和强大。如果您的主要需求是克隆,请再次确认 IndexTTS 项目是否支持以及如何训练自定义音色。

如果在部署 IndexTTS 服务本身时遇到困难(例如依赖错误、模型加载失败),这属于该独立项目的问题,请详细阅读其 GitHub 仓库的 Issues 和文档。如果是在配置 pyVideoTrans 连接时失败,请提供具体的错误信息。

IndexTTS 需要什么配置

根据 IndexTTS (EmotiVoice) 项目的官方文档和社区反馈,运行它需要以下硬件和软件配置。这是一个对算力要求较高的模型。

一、最低配置(CPU推理,不推荐用于生产)

  • CPU:现代多核处理器(如 Intel i7 或 AMD Ryzen 7 系列及以上)。
  • 内存16 GB RAM 或更高。模型加载会消耗大量内存。
  • 存储:至少 10 GB 可用空间,用于存放模型文件。
  • 系统:Windows 10/11, Linux, 或 macOS。
  • 警告:纯 CPU 推理速度极慢,生成几秒钟的语音可能需要数十秒到分钟级,完全不适合为视频配音。

二、推荐配置(GPU加速,实用必备)

  • GPUNVIDIA 独立显卡是硬性要求

    • 显存最低 8 GB,推荐 12 GB 或以上(如 RTX 3060 12G, RTX 4060 Ti 16G, RTX 4080/4090)。
    • 架构:支持 CUDA 的显卡。较新的架构(如 Ampere, Ada Lovelace)效率更高。
  • CPU:中端以上即可。
  • 内存:16 GB RAM。
  • 存储:固态硬盘(SSD),至少 20 GB 可用空间。

三、软件与环境配置

  1. Python:3.8 - 3.10 版本(3.10 最兼容)。
  2. PyTorch:与您的 CUDA 版本匹配(如 CUDA 11.8 或 12.1)。
  3. CUDA 和 cuDNN:必须安装与 PyTorch 版本对应的 NVIDIA CUDA Toolkit 和 cuDNN 库。
  4. 依赖库:通过 requirements.txt 安装项目所需的所有 Python 包。

四、在 pyVideoTrans 中使用的额外配置

  • pyVideoTrans 设置:在 工具 -> 选项 -> 高级选项 中,确保启用 CUDA加速
  • API 服务:IndexTTS 需要作为一个独立的 HTTP API 服务在后台运行,pyVideoTrans 通过该接口调用它。

核心结论与建议

  1. 显卡是核心:没有性能足够的 NVIDIA 显卡(显存≥8G),无法流畅使用 IndexTTS。请优先确认您的硬件。
  2. 部署复杂度高:相比 GPT-SoVITS 的整合包,IndexTTS 的部署更偏向开发者,需要自行解决环境、依赖和 API 封装问题。
  3. 备选方案:如果您的配置不满足,强烈建议选择其他方案

    • 本地:使用 pyVideoTrans 内置的 VITS-cnenPiper-TTS,它们对硬件要求低得多。
    • 在线:使用 Edge-TTS(免费)或 OpenAI TTS(付费),质量好且无需本地算力。
    • 克隆需求:如果必须本地克隆,GPT-SoVITS 对显存的要求相对更灵活(6G可尝试),且有现成整合包。

行动检查清单

  1. 打开设备管理器,确认您有一块 NVIDIA 显卡,并记下型号。
  2. 使用 nvidia-smi 命令(在CMD中)查看您的 CUDA 版本显卡显存
  3. 如果显存 小于 8GB,请直接考虑上述备选方案,不要尝试部署 IndexTTS。
  4. 如果显存足够,请严格按照 IndexTTS 项目的官方 GitHub 仓库的安装说明进行操作。

如果您在检查配置后确认满足要求,但在部署过程中遇到具体错误,请提供详细的错误日志。

VITS-cnen 怎么部署

VITS-cnen 是 pyVideoTrans 软件内置的本地 TTS 引擎,无需您单独部署。它已经集成在软件包中,开箱即用。

在 pyVideoTrans 中使用 VITS-cnen 的步骤:

  1. 选择配音角色
    在软件主界面的 第4行“配音” 区域,点击角色下拉菜单,选择 VITS-cnen
  2. 选择音色
    选择角色后,右侧的 “音色” 下拉菜单会自动列出可用的声音(如 中文女声英文男声 等),选择您喜欢的一个。
  3. 试听与使用
    您可以点击 “试听” 按钮测试效果。之后在翻译视频时,软件会自动调用它进行配音。

关于 VITS-cnen 的重要说明:

  • 功能定位:它是一个高质量的本地语音合成模型,主要用于多语言合成(中英文混合效果较好),并非专门的“语音克隆”模型。它提供的是固定的、预训练好的音色,您不能用自己的声音样本来训练它。
  • 硬件要求

    • 支持 CPU 和 GPU。即使您没有独立显卡(集成显卡),它也能在 CPU 上正常运行,速度尚可。
    • 如果您有 NVIDIA 显卡,请在 工具 -> 选项 -> 高级选项 中勾选 “CUDA加速”,可以大幅提升合成速度。
  • 优点

    • 完全离线,无需网络。
    • 免费
    • 部署零成本,无需任何额外配置。
    • 中英文混合朗读自然度较好。

如果您需要的是“语音克隆”(用自己的声音配音):

那么 VITS-cnen 无法满足您的需求。您应该部署其他支持克隆的模型,例如:

  1. GPT-SoVITS:效果与资源平衡性好,支持中英日。
  2. CosyVoice:效果优秀,对中英文支持好。
  3. F5-TTS:较新的模型,效果出色。

总结:
对于您提到的 中文、英文、韩文、日文 需求:

  • 如果不需要克隆特定人声,只是需要高质量的合成语音,直接使用内置的 VITS-cnen 是最简单快捷的方案。
  • 如果必须克隆特定人声,请按照之前的建议,部署 GPT-SoVITS 等克隆软件。

请根据您的核心需求(合成 vs 克隆)来选择。

IndexTTS本地部署

根据 IndexTTS (EmotiVoice) 项目的官方信息和社区实践,以下是其本地部署的核心步骤。请注意,这是一个相对复杂的项目,部署过程需要一定的技术基础。

第一步:环境准备 (Windows 示例)

  1. 安装 Conda (推荐):用于管理独立的 Python 环境。

    • 下载并安装 Miniconda 或 Anaconda。
  2. 创建并激活环境

    conda create -n emotivoice python=3.10
    conda activate emotivoice

第二步:获取项目与依赖

  1. 克隆仓库

    git clone https://github.com/netease-youdao/EmotiVoice
    cd EmotiVoice
  2. 安装 PyTorch

    • 根据您的 CUDA 版本(通过 nvidia-smi 查看)去 PyTorch 官网 获取安装命令。
    • 例如,对于 CUDA 11.8:

      pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
  3. 安装项目依赖

    pip install -r requirements.txt
    • 注意:如果遇到特定包版本冲突,可能需要根据错误提示手动调整。

第三步:下载模型

  1. 从官方指定的位置(通常是 Hugging Face 或百度网盘)下载预训练模型文件。
  2. 将下载的模型文件(如 .pth 检查点文件)放置到项目目录下的 checkpointsmodel 文件夹中(具体路径请参考项目 README.md)。

第四步:启动 API 服务 (关键步骤)

IndexTTS 项目本身可能不直接提供现成的 HTTP API 脚本。您通常需要自行编写或使用社区提供的简易 API 脚本。一个最基本的 api.py 示例框架如下:

from flask import Flask, request, send_file
import torch
import soundfile as sf
import io
# 导入 IndexTTS 的核心推理函数/类
# from your_inference_module import tts_inference

app = Flask(__name__)

@app.route('/tts', methods=['POST'])
def tts():
    data = request.json
    text = data.get('text', '')
    speaker = data.get('speaker', 'default') # 如果有音色参数
    # 调用 IndexTTS 推理函数,生成音频 numpy 数组和采样率
    # audio, sr = tts_inference(text, speaker)
    # 将音频保存到字节流
    audio_io = io.BytesIO()
    sf.write(audio_io, audio, sr, format='WAV')
    audio_io.seek(0)
    return send_file(audio_io, mimetype='audio/wav')

if __name__ == '__main__':
    app.run(host='0.0.0.0', port=8000, debug=False)

您需要

  1. 将上述示例中的 # from your_inference_module import tts_inference 替换为项目实际的推理代码导入。
  2. 实现 tts_inference 函数,使其能接收文本并返回音频数据。
  3. 将此脚本保存为 api.py 放在项目根目录。
  4. 运行 API 服务

    python api.py

    成功启动后,您将看到类似 * Running on http://127.0.0.1:8000 的输出。

第五步:在 pyVideoTrans 中配置

  1. 在 pyVideoTrans 主界面,配音角色选择 IndexTTS
  2. 点击角色右侧的 设置 按钮。
  3. 在 API地址 中填入 http://127.0.0.1:8000(或您自定义的端口)。
  4. 点击 测试。连接成功后即可使用。

重要提示与警告

  1. 配置要求高:IndexTTS 对 NVIDIA 显卡显存要求很高(推荐≥12GB)。显存不足将导致推理失败或极其缓慢。
  2. 部署复杂:此过程涉及环境配置、模型下载和 API 封装,不适合纯新手。一个依赖或路径错误就可能导致失败。
  3. 官方整合包强烈建议您优先在 pyVideoTrans 的官网 (pyvideotrans.com) 或相关社区(如 GitHub Discussions)搜索 “IndexTTS 整合包”“EmotiVoice 一键包”。开发者或社区成员可能已经制作了包含模型和简易 API 的免配置版本,能节省您大量时间。
  4. 备选方案:如果部署遇到无法解决的困难,请重新考虑您的需求:

    • 追求高质量合成(非克隆):直接使用 pyVideoTrans 内置的 VITS-cnen
    • 必须本地克隆:部署 GPT-SoVITS,其整合包和教程更完善。
    • 接受在线服务:使用 Edge-TTSOpenAI TTS,质量好且免部署。

总结:如果您不是开发者或深度学习爱好者,部署原生 IndexTTS 的性价比很低。请优先寻找现成的整合包,或改用更易部署的方案。

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Donate: https://ko-fi.com/jianchang512

Trending Questions