根据 pyVideoTrans 官方文档和 IndexTTS 项目信息,部署 IndexTTS 并将其接入 pyVideoTrans 的步骤如下。请注意,IndexTTS 是一个独立的开源项目,您需要先完成其本地部署。
第一部分:部署 IndexTTS 服务
1. 获取项目
访问 IndexTTS 的官方 GitHub 仓库:
https://github.com/netease-youdao/EmotiVoice
注意:IndexTTS 是 EmotiVoice 项目的一部分或与其密切相关。请确保您下载或克隆的是正确的代码。
2. 环境准备 (Windows 示例)
强烈建议使用 Conda 创建独立的 Python 环境以避免依赖冲突。
conda create -n indextts python=3.10
conda activate indextts
安装 PyTorch (带 CUDA,如果您有 NVIDIA 显卡):
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
进入项目目录,安装其他依赖:
pip install -r requirements.txt
3. 下载模型
根据项目 README.md 的说明,下载预训练的 IndexTTS 模型文件,通常需要从 Hugging Face 或百度网盘获取,并放置到指定的 model 或 checkpoints 目录下。
4. 启动 API 服务
IndexTTS 项目通常提供或可以通过修改代码来创建一个简单的 HTTP API 服务。您需要找到一个 api.py、server.py 或类似的文件,或者根据项目说明自行编写一个。
- 运行服务后,它通常会监听一个本地端口,例如
http://127.0.0.1:8000。 - 核心是确保该服务提供一个 HTTP 接口,能够接收文本并返回合成音频(如 WAV 格式)。pyVideoTrans 将向这个接口发送请求。
第二部分:在 pyVideoTrans 中配置
1. 选择配音角色
在 pyVideoTrans 主界面“配音”区域,点击角色下拉菜单,选择 IndexTTS。
2. 配置 API 地址
点击角色右侧的 设置 按钮。
在弹出的窗口中,将 API地址 填写为您本地启动的 IndexTTS API 服务地址,例如 http://127.0.0.1:8000。
点击 测试 按钮。如果显示“连接成功”或类似提示,则配置正确。
3. 选择音色 (如果支持)
如果您的 IndexTTS 服务支持多音色,配置成功后,在“音色”下拉菜单中应该会出现可选的音色列表,选择您想要使用的一个。
重要提示与常见问题
- 服务是关键:在使用 pyVideoTrans 进行配音前,务必确保 IndexTTS 的 API 服务正在后台运行(即命令行窗口不能关闭)。
- 端口与路径:确保 API 地址的端口号与您启动服务时指定的端口一致。路径中不要包含中文或特殊字符。
- 首次测试:强烈建议先使用
curl 或 Python 脚本直接测试您的 IndexTTS API 服务是否能正常接收文本并返回音频,再在 pyVideoTrans 中进行完整流程测试。 - 官方整合包:pyVideoTrans 的官方网站或社区有时会提供热门 TTS 引擎(如 IndexTTS)的“一键整合包”,这可以极大简化部署过程。建议您优先搜索
pyvideotrans.com 查看是否有相关资源。 - 克隆功能:IndexTTS 的主要优势在于高质量语音合成,其语音克隆(自定义音色)功能可能不如 GPT-SoVITS 或 CosyVoice 那样直接和强大。如果您的主要需求是克隆,请再次确认 IndexTTS 项目是否支持以及如何训练自定义音色。
如果在部署 IndexTTS 服务本身时遇到困难(例如依赖错误、模型加载失败),这属于该独立项目的问题,请详细阅读其 GitHub 仓库的 Issues 和文档。如果是在配置 pyVideoTrans 连接时失败,请提供具体的错误信息。