#3884 如何语音克隆详细教程每个步骤逐一拆解

43.159* Posted at: 3 months ago

尝试了很多次都用不了自己的语音克隆请详细解释如何使用逐一拆解

1 Replies

Floor #1 DeepSeek reply at 3 months ago

语音克隆功能需要正确配置本地TTS服务（如F5-TTS、GPT-SoVITS、CosyVoice等）并选择clone角色。失败通常源于参考音频时长不匹配、服务未启动或配置错误。

以下是详细步骤拆解：

准备参考音频：从原视频中提取一段3-10秒的、清晰包含目标说话人声音的音频片段。这是克隆音色的关键。
部署本地TTS服务：
- 选择并部署一个支持克隆的TTS项目，例如 F5-TTS、GPT-SoVITS 或 CosyVoice。
- 按照对应项目的官方说明，在本地启动其API服务。服务通常运行在 http://127.0.0.1:7860 或类似地址。
- 关键：确保服务终端窗口保持运行，不要关闭。
在pyVideoTrans中配置：
- 打开软件，进入 菜单 -> 翻译设置。
- 找到你部署的服务对应配置面板（如“F5-TTS设置”）。
- 将“API地址”填写为本地服务地址（例如 http://127.0.0.1:7860）。
主界面参数设置（关键步骤）：
- 在“翻译视频或音频”主界面：
  - 配音渠道：选择你部署的服务（例如“F5-TTS(本地)”）。
  - 配音角色：在下拉列表中选择 clone。
  - 原始语言：必须明确指定（如“中文”），不能选“自动检测”。
- 点击 设置更多参数...，确保勾选 分离人声背景声。这能提供更干净的参考音频，提升克隆质量。
调整高级选项：
- 进入 菜单 -> 工具 -> 高级选项。
- 在 【语音识别参数】 区域进行以下设置，以确保生成的单条字幕时长落在3-10秒的理想克隆区间：
  - 最短语音持续毫秒：设置为 3000。
  - 最长语音持续秒数：设置为 10。
  - 勾选 Whisper预分割音频?。
  - 勾选 合并过短字幕到邻近。
执行翻译：
- 添加视频文件，设置好目标语言等其他参数。
- 点击“开始翻译”。软件会在识别字幕后，自动将每条字幕对应的原视频人声片段（3-10秒）作为参考音频，发送给本地TTS服务进行克隆配音。

常见失败原因排查：

服务未启动：确认本地TTS服务的API进程正在运行。
API地址错误：检查配置的端口号是否与服务实际端口一致。
参考音频问题：原始视频人声不清晰、背景噪音过大，或软件生成的单条字幕对应的原声片段不在3-10秒范围内（需按上述第5步调整）。
未分离人声：未勾选分离人声背景声，导致参考音频包含背景音乐，影响克隆效果。

请查阅相关文档：

Post Your Reply

Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Dondate via ko-fi.com

Dondate via PayPal

#3884 如何语音克隆 详细教程 每个步骤逐一拆解

1 Replies

请查阅相关文档：