#2104 请问目前最新版本支持哪几款本地部署克隆音频软件，哪款的克隆效果既好又快还不吃显卡？

240a:42b2* Posted at: 2 months ago 👁293

请问目前最新版本支持哪几款本地部署克隆音频软件，哪款的克隆效果既好又快还不吃显卡？

Floor #1 DeepSeek AI reply at 2 months ago

根据 pyVideoTrans 官方文档和最新版本 (v3.90) 的信息，目前支持的本地部署语音克隆软件主要有以下几款：

GPT-SoVITS：效果公认较好，支持少量样本快速微调，对显卡要求相对友好。
F5-TTS：较新的模型，效果出色，推理速度较快。
CosyVoice：阿里巴巴的模型，效果优秀，支持中英文。
ChatterBox：效果不错，集成在软件中。
Kokoro-TTS：支持多语言，效果较好。

关于“效果好、速度快、不吃显卡”的推荐：
没有一款模型能同时完美满足这三个条件，这是一个“不可能三角”。但可以给出折中建议：

综合推荐 GPT-SoVITS：它在效果、速度和资源消耗之间取得了较好的平衡。通过其 WebUI 进行几分钟语音的微调后，可以在 pyVideoTrans 中达到不错的克隆效果，对显卡（显存）的要求在主流消费级显卡（如 RTX 3060 6G）上基本可接受。
追求速度可尝试 F5-TTS 或 CosyVoice：它们的推理（生成语音）速度通常较快，但效果和资源消耗因具体模型版本和配置而异。
降低显存消耗的关键：无论选择哪款，在 pyVideoTrans 的“高级选项”中，确保勾选“CUDA加速”，但可以将相关模型的推理精度设置为 float16 或 int8（如果模型支持），这能显著减少显存占用并提升速度，效果损失很小。

操作步骤：

您需要先独立部署上述任意一款克隆软件的模型和服务（通常会有独立的 GitHub 项目或 WebUI）。
在 pyVideoTrans 的“配音”角色列表中，选择对应的“Clone”角色（如 GPTSoVITS），并在其设置中填入您本地部署的服务 API 地址（通常是 http://127.0.0.1:端口号）。

建议从 GPT-SoVITS 开始尝试，其社区教程和资源最为丰富。

Floor #2 240a:42b2* reply at 2 months ago

CosyVoice3怎么样？

Floor #3 DeepSeek AI reply at 2 months ago

根据 pyVideoTrans 官方文档和 CosyVoice 项目的最新信息，CosyVoice 是阿里巴巴推出的高质量语音生成与克隆模型，其最新版本 CosyVoice-3 在效果和性能上相比早期版本有显著提升。

关于 CosyVoice-3 在 pyVideoTrans 中的表现评估：

效果：非常好。CosyVoice-3 在官方评测和社区反馈中，其语音自然度、音色相似度和情感表现都处于第一梯队，尤其擅长中文，对英文的支持也相当不错。
速度：较快。其推理速度经过优化，在支持 CUDA 的显卡上生成语音的效率很高，能满足视频翻译配音的时效性要求。
资源消耗（“吃显卡”）：相对友好，但并非不吃显卡。这是需要明确的一点：
- 显存方面：相比一些庞大的传统 TTS 模型，CosyVoice-3 的模型大小和推理优化做得较好，对显存的要求属于中等水平。在 RTX 3060 6G 或更高规格的显卡上运行通常没有问题。
- 关键优化：您可以在其部署工具或 pyVideoTrans 的高级选项中，将推理精度设置为 fp16（半精度），这能大幅减少显存占用并进一步提升速度，而对音质的影响微乎其微。

结论与建议：
CosyVoice-3 是当前效果、速度和资源消耗平衡性极佳的选择之一，非常值得尝试。 如果您已经部署了 CosyVoice-3 服务，在 pyVideoTrans 中使用它是个好主意。

在 pyVideoTrans 中使用的步骤：

确保您已成功在本地或服务器上部署了 CosyVoice-3 的推理 API 服务。
在 pyVideoTrans 主界面，配音角色选择 CosyVoice。
点击角色右侧的 设置 按钮，在弹出的窗口中填写您本地 CosyVoice-3 服务的 API 地址（例如 http://127.0.0.1:8000）。
选择您想要克隆的音色角色。
强烈建议：前往 工具 -> 选项 -> 高级选项，在相关区域确认或设置 CUDA 加速和 fp16 精度，以优化性能和资源占用。

如果您在部署或使用 CosyVoice-3 过程中遇到具体问题（如连接失败、报错），请提供更详细的日志或错误信息，以便进一步分析。

Floor #4 240a:42b2* reply at 2 months ago

我需要中文英文韩文日文的克隆配音请问用哪一款？本地部署克隆软件？

Floor #5 DeepSeek AI reply at 2 months ago

根据您的多语言（中文、英文、韩文、日文）克隆配音需求，在 pyVideoTrans 目前支持的本地部署方案中，推荐如下：

首选推荐：GPT-SoVITS

多语言支持：GPT-SoVITS 官方版本已支持中文、英文、日语的语音克隆与合成。对于韩语，社区有相关扩展和尝试，但原生支持可能不如前三者成熟，效果需要实测。
效果与资源平衡：在效果、速度和显存消耗之间取得了很好的平衡，社区资源最丰富，教程最多，遇到问题容易找到解决方案。
在 pyVideoTrans 中的使用：集成良好，选择“GPTSoVITS”角色并配置本地API地址即可。

备选方案：CosyVoice

多语言支持：官方强调其优秀的中英文能力。对于日语和韩语，虽然其基础模型具备多语言能力，但针对后两者的克隆效果和优化信息不如中英文明确，需要您自行测试。
特点：由阿里巴巴开发，效果出色，推理速度可能更快。

其他方案：

F5-TTS / Kokoro-TTS：它们也具备多语言能力，但具体对韩语、日语克隆的支持深度和易用性，需要查阅其各自项目文档进行确认。

给您的明确行动建议：

从 GPT-SoVITS 开始：这是满足您中、英、日三语需求最稳妥、社区支持最好的选择。请先部署它。
单独测试韩语：在部署好 GPT-SoVITS 后，使用韩语语音样本进行克隆和合成测试，评估效果是否满足您的要求。
如果韩语效果不理想：再考虑部署 CosyVoice 或 Kokoro-TTS，专门用于韩语任务，然后在 pyVideoTrans 中通过“字幕多角色配音”工具，为不同语言的字幕行分配不同的TTS引擎（例如，中英日使用GPT-SoVITS，韩语使用CosyVoice）。

部署与使用核心步骤：

部署克隆软件：从 GitHub 克隆 GPT-SoVITS 等项目，按照其官方文档在您的电脑上安装依赖并启动 WebUI 及 API 服务。
在 pyVideoTrans 中配置：
- 主界面“配音”角色选择“GPTSoVITS”。
- 点击“设置”，填入本地 API 地址（如 http://127.0.0.1:9880）。
- 在“音色”下拉列表中选择您事先在 GPT-SoVITS WebUI 中训练好的克隆模型。
进行翻译配音：正常执行视频翻译流程，软件会自动调用您配置的本地克隆服务进行配音。

重要提醒：

任何本地语音克隆都需要您提供目标音色的清晰语音样本（通常需要几分钟的干净语音）进行模型微调（训练），才能得到克隆效果。
多语言克隆的效果，尤其是韩语和日语，强烈依赖于您所用克隆模型本身的多语言训练数据。请在部署前，仔细阅读您所选项目关于多语言支持的说明。

Floor #6 112.102* reply at 2 months ago

CosyVoice-3 集成显卡能用吗

Floor #7 DeepSeek AI reply at 2 months ago

不能，或者效果极差，不推荐。

CosyVoice-3 作为先进的深度学习模型，强烈依赖 NVIDIA 显卡的 CUDA 核心进行加速计算。集成显卡（无论是 Intel 还是 AMD 的核显）无法满足其运行要求，原因如下：

缺乏 CUDA 支持：CosyVoice-3 的 PyTorch 框架主要使用 CUDA 进行 GPU 加速。集成显卡不支持 CUDA。
算力严重不足：即使通过某些方式在 CPU 上运行，其计算速度将极其缓慢（生成几秒语音可能需要几分钟甚至更久），完全无法用于视频配音的实用场景。
内存压力巨大：模型加载和推理会消耗大量系统内存（RAM），容易导致程序崩溃或系统卡死。

您的可行方案：

方案一（首选）：使用支持 CPU 推理的轻量级 TTS
在 pyVideoTrans 中，选择以下内置的、对集成显卡友好的配音方案：
- VITS-cnen：本地模型，支持中英文，CPU 推理速度尚可。
- Piper-TTS：本地模型，支持多语言，CPU 效率较高。
- Edge-TTS：使用微软在线服务，质量好、免费，但需要网络。
方案二：使用在线语音克隆 API（如果必须克隆）
考虑使用在线 API 服务，将计算负载转移到服务器端，例如：
- ElevenLabs（付费）：克隆效果顶级，支持多语言。
- Azure TTS（付费）：支持自定义神经语音，需提前在云端训练音色。
- 注意：pyVideoTrans 支持这些 API，但您需要自行注册并获取密钥。
方案三：升级硬件
如果本地语音克隆是硬性需求，最根本的解决方案是配备一块 NVIDIA 独立显卡（如 GTX 1650 或更高型号，显存4G以上）。

结论：对于集成显卡用户，请放弃本地部署 CosyVoice-3、GPT-SoVITS 等大型克隆模型的念头。 您的优选路径是使用 pyVideoTrans 内置的 VITS-cnen 或 Piper-TTS 进行本地合成，或者使用 Edge-TTS 在线服务。

Floor #8 112.102* reply at 2 months ago

GPT-SoVITS怎么部署

Floor #9 DeepSeek AI reply at 2 months ago

以下是 GPT-SoVITS 在 Windows 系统上部署的简明步骤，以便您在 pyVideoTrans 中使用。整个过程分为 部署服务 和 在 pyVideoTrans 中配置 两部分。

第一部分：部署 GPT-SoVITS 服务

获取软件
- 访问 GPT-SoVITS 官方仓库：https://github.com/RVC-Boss/GPT-SoVITS
- 在 Releases 页面下载最新的整合包（通常名为 GPT-SoVITS-beta.zip 或类似）。这是最简单的方式，解压即用。
解压与准备
- 将下载的压缩包解压到一个纯英文路径的目录中，例如 D:\GPT-SoVITS。
- 重要：路径中不要包含中文、空格或特殊符号。
启动 WebUI（训练与推理界面）
- 进入解压后的目录，双击运行 启动WebUI.bat。
- 首次运行会自动下载必要的模型文件（约几个GB），请保持网络通畅并耐心等待。
- 完成后，浏览器会自动打开 http://127.0.0.1:9874 的 Web 界面。
训练您的音色模型（克隆）
- 在 WebUI 的 1-GPT-SoVITS-TTS 页面：
  - 语音素材：准备 5-10 分钟目标音色的清晰语音（.wav格式），放入一个文件夹。
  - 切分与标注：使用 语音切分 工具自动切分长音频，然后进行 语音识别 生成文本标注。
  - 微调训练：分别进行 SOVITS微调 和 GPT微调。这是最耗时的步骤，取决于您的显卡性能。
- 训练完成后，模型会自动保存在 GPT_SoVITS\assets 目录下。
启动 API 服务（关键步骤）
- 在 WebUI 的顶部或侧边栏找到 API/CLI 或 一键启动API 按钮并点击。
- 成功启动后，您会看到类似 Running on http://127.0.0.1:9880 的提示。请记住这个地址和端口（默认9880）。

第二部分：在 pyVideoTrans 中配置

打开配置
- 运行 pyVideoTrans。
- 在主界面“配音”区域，点击角色下拉菜单，选择 GPTSoVITS。
设置 API 地址
- 点击角色右侧的 设置 按钮。
- 在弹出的窗口中，将 API地址 填写为第一步中启动的 API 服务地址，即 http://127.0.0.1:9880。
- 点击“测试”按钮，如果显示连接成功，则配置正确。
选择音色并配音
- 配置成功后，在“音色”下拉菜单中，您会看到您在 GPT-SoVITS WebUI 中训练好的模型名称。
- 选择它，之后在翻译视频时，软件就会调用您本地的 GPT-SoVITS 服务进行克隆配音了。

常见问题与提示

端口冲突：如果 9880 端口被占用，您需要在启动 GPT-SoVITS API 时指定其他端口（如 --port 9881），并在 pyVideoTrans 设置中对应修改。
确保服务运行：在使用 pyVideoTrans 进行配音前，务必确保 GPT-SoVITS 的 API 服务正在运行（即那个黑色的命令窗口不能关闭）。
首次使用：建议先在 GPT-SoVITS 的 WebUI 的 TTS推理 页面测试您的模型是否能正常合成语音，再在 pyVideoTrans 中进行完整流程。
性能：在 pyVideoTrans 的 工具 -> 选项 -> 高级选项 中，确保已启用 CUDA 加速以获得最佳速度。

按照以上步骤，您应该能成功部署并连接 GPT-SoVITS。如果在部署 API 服务或连接测试时遇到具体错误，请提供错误信息以便进一步排查。

Floor #10 112.102* reply at 2 months ago

IndexTTS 怎么部署

Floor #11 DeepSeek AI reply at 2 months ago

根据 pyVideoTrans 官方文档和 IndexTTS 项目信息，部署 IndexTTS 并将其接入 pyVideoTrans 的步骤如下。请注意，IndexTTS 是一个独立的开源项目，您需要先完成其本地部署。

第一部分：部署 IndexTTS 服务

1. 获取项目
访问 IndexTTS 的官方 GitHub 仓库：

https://github.com/netease-youdao/EmotiVoice

注意：IndexTTS 是 EmotiVoice 项目的一部分或与其密切相关。请确保您下载或克隆的是正确的代码。

2. 环境准备 (Windows 示例)

强烈建议使用 Conda 创建独立的 Python 环境以避免依赖冲突。
```
conda create -n indextts python=3.10
conda activate indextts
```

安装 PyTorch (带 CUDA，如果您有 NVIDIA 显卡)：

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

进入项目目录，安装其他依赖：
```
pip install -r requirements.txt
```

3. 下载模型
根据项目 README.md 的说明，下载预训练的 IndexTTS 模型文件，通常需要从 Hugging Face 或百度网盘获取，并放置到指定的 model 或 checkpoints 目录下。

4. 启动 API 服务
IndexTTS 项目通常提供或可以通过修改代码来创建一个简单的 HTTP API 服务。您需要找到一个 api.py、server.py 或类似的文件，或者根据项目说明自行编写一个。

运行服务后，它通常会监听一个本地端口，例如 http://127.0.0.1:8000。
核心是确保该服务提供一个 HTTP 接口，能够接收文本并返回合成音频（如 WAV 格式）。pyVideoTrans 将向这个接口发送请求。

第二部分：在 pyVideoTrans 中配置

1. 选择配音角色
在 pyVideoTrans 主界面“配音”区域，点击角色下拉菜单，选择 IndexTTS。

2. 配置 API 地址
点击角色右侧的 设置 按钮。
在弹出的窗口中，将 API地址 填写为您本地启动的 IndexTTS API 服务地址，例如 http://127.0.0.1:8000。
点击 测试 按钮。如果显示“连接成功”或类似提示，则配置正确。

3. 选择音色 (如果支持)
如果您的 IndexTTS 服务支持多音色，配置成功后，在“音色”下拉菜单中应该会出现可选的音色列表，选择您想要使用的一个。

重要提示与常见问题

服务是关键：在使用 pyVideoTrans 进行配音前，务必确保 IndexTTS 的 API 服务正在后台运行（即命令行窗口不能关闭）。
端口与路径：确保 API 地址的端口号与您启动服务时指定的端口一致。路径中不要包含中文或特殊字符。
首次测试：强烈建议先使用 curl 或 Python 脚本直接测试您的 IndexTTS API 服务是否能正常接收文本并返回音频，再在 pyVideoTrans 中进行完整流程测试。
官方整合包：pyVideoTrans 的官方网站或社区有时会提供热门 TTS 引擎（如 IndexTTS）的“一键整合包”，这可以极大简化部署过程。建议您优先搜索 pyvideotrans.com 查看是否有相关资源。
克隆功能：IndexTTS 的主要优势在于高质量语音合成，其语音克隆（自定义音色）功能可能不如 GPT-SoVITS 或 CosyVoice 那样直接和强大。如果您的主要需求是克隆，请再次确认 IndexTTS 项目是否支持以及如何训练自定义音色。

如果在部署 IndexTTS 服务本身时遇到困难（例如依赖错误、模型加载失败），这属于该独立项目的问题，请详细阅读其 GitHub 仓库的 Issues 和文档。如果是在配置 pyVideoTrans 连接时失败，请提供具体的错误信息。

Floor #12 112.102* reply at 2 months ago

IndexTTS 需要什么配置

Floor #13 DeepSeek AI reply at 2 months ago

根据 IndexTTS (EmotiVoice) 项目的官方文档和社区反馈，运行它需要以下硬件和软件配置。这是一个对算力要求较高的模型。

一、最低配置（CPU推理，不推荐用于生产）

CPU：现代多核处理器（如 Intel i7 或 AMD Ryzen 7 系列及以上）。
内存：16 GB RAM 或更高。模型加载会消耗大量内存。
存储：至少 10 GB 可用空间，用于存放模型文件。
系统：Windows 10/11， Linux，或 macOS。
警告：纯 CPU 推理速度极慢，生成几秒钟的语音可能需要数十秒到分钟级，完全不适合为视频配音。

二、推荐配置（GPU加速，实用必备）

GPU：NVIDIA 独立显卡是硬性要求。
- 显存：最低 8 GB，推荐 12 GB 或以上（如 RTX 3060 12G, RTX 4060 Ti 16G, RTX 4080/4090）。
- 架构：支持 CUDA 的显卡。较新的架构（如 Ampere, Ada Lovelace）效率更高。
CPU：中端以上即可。
内存：16 GB RAM。
存储：固态硬盘（SSD），至少 20 GB 可用空间。

三、软件与环境配置

Python：3.8 - 3.10 版本（3.10 最兼容）。
PyTorch：与您的 CUDA 版本匹配（如 CUDA 11.8 或 12.1）。
CUDA 和 cuDNN：必须安装与 PyTorch 版本对应的 NVIDIA CUDA Toolkit 和 cuDNN 库。
依赖库：通过 requirements.txt 安装项目所需的所有 Python 包。

四、在 pyVideoTrans 中使用的额外配置

pyVideoTrans 设置：在 工具 -> 选项 -> 高级选项 中，确保启用 CUDA加速。
API 服务：IndexTTS 需要作为一个独立的 HTTP API 服务在后台运行，pyVideoTrans 通过该接口调用它。

核心结论与建议

显卡是核心：没有性能足够的 NVIDIA 显卡（显存≥8G），无法流畅使用 IndexTTS。请优先确认您的硬件。
部署复杂度高：相比 GPT-SoVITS 的整合包，IndexTTS 的部署更偏向开发者，需要自行解决环境、依赖和 API 封装问题。
备选方案：如果您的配置不满足，强烈建议选择其他方案：
- 本地：使用 pyVideoTrans 内置的 VITS-cnen 或 Piper-TTS，它们对硬件要求低得多。
- 在线：使用 Edge-TTS（免费）或 OpenAI TTS（付费），质量好且无需本地算力。
- 克隆需求：如果必须本地克隆，GPT-SoVITS 对显存的要求相对更灵活（6G可尝试），且有现成整合包。

行动检查清单：

打开设备管理器，确认您有一块 NVIDIA 显卡，并记下型号。
使用 nvidia-smi 命令（在CMD中）查看您的 CUDA 版本 和 显卡显存。
如果显存 小于 8GB，请直接考虑上述备选方案，不要尝试部署 IndexTTS。
如果显存足够，请严格按照 IndexTTS 项目的官方 GitHub 仓库的安装说明进行操作。

如果您在检查配置后确认满足要求，但在部署过程中遇到具体错误，请提供详细的错误日志。

Floor #14 112.102* reply at 2 months ago

VITS-cnen 怎么部署

Floor #15 DeepSeek AI reply at 2 months ago

VITS-cnen 是 pyVideoTrans 软件内置的本地 TTS 引擎，无需您单独部署。它已经集成在软件包中，开箱即用。

在 pyVideoTrans 中使用 VITS-cnen 的步骤：

选择配音角色：
在软件主界面的 第4行“配音” 区域，点击角色下拉菜单，选择 VITS-cnen。
选择音色：
选择角色后，右侧的 “音色” 下拉菜单会自动列出可用的声音（如 中文女声、英文男声 等），选择您喜欢的一个。
试听与使用：
您可以点击 “试听” 按钮测试效果。之后在翻译视频时，软件会自动调用它进行配音。

关于 VITS-cnen 的重要说明：

功能定位：它是一个高质量的本地语音合成模型，主要用于多语言合成（中英文混合效果较好），并非专门的“语音克隆”模型。它提供的是固定的、预训练好的音色，您不能用自己的声音样本来训练它。
硬件要求：
- 支持 CPU 和 GPU。即使您没有独立显卡（集成显卡），它也能在 CPU 上正常运行，速度尚可。
- 如果您有 NVIDIA 显卡，请在 工具 -> 选项 -> 高级选项 中勾选 “CUDA加速”，可以大幅提升合成速度。
优点：
- 完全离线，无需网络。
- 免费。
- 部署零成本，无需任何额外配置。
- 中英文混合朗读自然度较好。

如果您需要的是“语音克隆”（用自己的声音配音）：

那么 VITS-cnen 无法满足您的需求。您应该部署其他支持克隆的模型，例如：

GPT-SoVITS：效果与资源平衡性好，支持中英日。
CosyVoice：效果优秀，对中英文支持好。
F5-TTS：较新的模型，效果出色。

总结：
对于您提到的 中文、英文、韩文、日文 需求：

如果不需要克隆特定人声，只是需要高质量的合成语音，直接使用内置的 VITS-cnen 是最简单快捷的方案。
如果必须克隆特定人声，请按照之前的建议，部署 GPT-SoVITS 等克隆软件。

请根据您的核心需求（合成 vs 克隆）来选择。

Floor #16 112.102* reply at 2 months ago

IndexTTS本地部署

Floor #17 DeepSeek AI reply at 2 months ago

根据 IndexTTS (EmotiVoice) 项目的官方信息和社区实践，以下是其本地部署的核心步骤。请注意，这是一个相对复杂的项目，部署过程需要一定的技术基础。

第一步：环境准备 (Windows 示例)

安装 Conda (推荐)：用于管理独立的 Python 环境。
- 下载并安装 Miniconda 或 Anaconda。

创建并激活环境：

conda create -n emotivoice python=3.10
conda activate emotivoice

第二步：获取项目与依赖

克隆仓库：

git clone https://github.com/netease-youdao/EmotiVoice
cd EmotiVoice

安装 PyTorch：
- 根据您的 CUDA 版本（通过 nvidia-smi 查看）去 PyTorch 官网获取安装命令。
- 例如，对于 CUDA 11.8：
```
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
```
安装项目依赖：
```
pip install -r requirements.txt
```
- 注意：如果遇到特定包版本冲突，可能需要根据错误提示手动调整。

第三步：下载模型

从官方指定的位置（通常是 Hugging Face 或百度网盘）下载预训练模型文件。
将下载的模型文件（如 .pth 检查点文件）放置到项目目录下的 checkpoints 或 model 文件夹中（具体路径请参考项目 README.md）。

第四步：启动 API 服务 (关键步骤)

IndexTTS 项目本身可能不直接提供现成的 HTTP API 脚本。您通常需要自行编写或使用社区提供的简易 API 脚本。一个最基本的 api.py 示例框架如下：

from flask import Flask, request, send_file
import torch
import soundfile as sf
import io
# 导入 IndexTTS 的核心推理函数/类
# from your_inference_module import tts_inference

app = Flask(__name__)

@app.route('/tts', methods=['POST'])
def tts():
    data = request.json
    text = data.get('text', '')
    speaker = data.get('speaker', 'default') # 如果有音色参数
    # 调用 IndexTTS 推理函数，生成音频 numpy 数组和采样率
    # audio, sr = tts_inference(text, speaker)
    # 将音频保存到字节流
    audio_io = io.BytesIO()
    sf.write(audio_io, audio, sr, format='WAV')
    audio_io.seek(0)
    return send_file(audio_io, mimetype='audio/wav')

if __name__ == '__main__':
    app.run(host='0.0.0.0', port=8000, debug=False)

您需要：

将上述示例中的 # from your_inference_module import tts_inference 替换为项目实际的推理代码导入。
实现 tts_inference 函数，使其能接收文本并返回音频数据。
将此脚本保存为 api.py 放在项目根目录。
运行 API 服务：
```
python api.py
```
成功启动后，您将看到类似 * Running on http://127.0.0.1:8000 的输出。

第五步：在 pyVideoTrans 中配置

在 pyVideoTrans 主界面，配音角色选择 IndexTTS。
点击角色右侧的 设置 按钮。
在 API地址中填入 http://127.0.0.1:8000（或您自定义的端口）。
点击 测试。连接成功后即可使用。

重要提示与警告

配置要求高：IndexTTS 对 NVIDIA 显卡显存要求很高（推荐≥12GB）。显存不足将导致推理失败或极其缓慢。
部署复杂：此过程涉及环境配置、模型下载和 API 封装，不适合纯新手。一个依赖或路径错误就可能导致失败。
官方整合包：强烈建议您优先在 pyVideoTrans 的官网 (pyvideotrans.com) 或相关社区（如 GitHub Discussions）搜索 “IndexTTS 整合包” 或 “EmotiVoice 一键包”。开发者或社区成员可能已经制作了包含模型和简易 API 的免配置版本，能节省您大量时间。
备选方案：如果部署遇到无法解决的困难，请重新考虑您的需求：
- 追求高质量合成（非克隆）：直接使用 pyVideoTrans 内置的 VITS-cnen。
- 必须本地克隆：部署 GPT-SoVITS，其整合包和教程更完善。
- 接受在线服务：使用 Edge-TTS 或 OpenAI TTS，质量好且免部署。

总结：如果您不是开发者或深度学习爱好者，部署原生 IndexTTS 的性价比很低。请优先寻找现成的整合包，或改用更易部署的方案。

#2104 请问目前最新版本支持哪几款本地部署克隆音频软件，哪款的克隆效果既好又快还不吃显卡？

17 Replies

第一部分：部署 GPT-SoVITS 服务

第二部分：在 pyVideoTrans 中配置

常见问题与提示

第一部分：部署 IndexTTS 服务

第二部分：在 pyVideoTrans 中配置

重要提示与常见问题

一、最低配置（CPU推理，不推荐用于生产）

二、推荐配置（GPU加速，实用必备）

三、软件与环境配置

四、在 pyVideoTrans 中使用的额外配置

核心结论与建议

在 pyVideoTrans 中使用 VITS-cnen 的步骤：

关于 VITS-cnen 的重要说明：

如果您需要的是“语音克隆”（用自己的声音配音）：

第一步：环境准备 (Windows 示例)

第二步：获取项目与依赖

第三步：下载模型

第四步：启动 API 服务 (关键步骤)

第五步：在 pyVideoTrans 中配置

重要提示与警告

Post Your Reply

Related resource