#2294 F5 TTS教程，之前的没有了，我需要一份完整的，可以接入PYVIDEOTRANS的教程

77.83* Posted at: 2 months ago 👁201

F5 TTS教程，之前的没有了，我需要一份完整的，可以接入PYVIDEOTRANS的教程

Floor #1 DeepSeek AI reply at 2 months ago

以下是 F5-TTS 接入 pyVideoTrans 的完整教程。F5-TTS 是一个高质量的本地语音合成引擎，支持音色克隆。

一、环境准备与部署

下载整合包：访问官方文档，下载适用于 Windows 的 F5-TTS 一键整合包。通常包含模型、依赖和启动脚本。
- 文档链接：从零开始制作 F5-TTS Windows 整合包
- 或直接查找包含 F5-TTS 的整合包下载地址。
解压与启动：
- 将整合包解压到纯英文路径（如 D:\F5-TTS）。
- 根据整合包内的说明启动服务。通常是通过运行 启动.bat 或 start.bat 文件。
- 成功启动后，命令行窗口会显示服务运行在本地的一个端口（例如 http://127.0.0.1:7860）。请保持此窗口运行。

二、在 pyVideoTrans 中配置

打开 pyVideoTrans 软件。
在主界面第 4 行“配音” 区域，选择配音渠道为 F5-TTS。
点击配音渠道右侧的 设置 按钮，进入 F5-TTS 配置页面。
关键配置项：
- API地址：填写 F5-TTS 服务启动后显示的地址，通常是 http://127.0.0.1:7860。
- 参考音频（用于音色克隆）：
  - 点击“参考音频”旁的文件夹图标，选择一个 .wav 格式的音频文件（包含你想要克隆的目标人声）。
  - 软件会自动提取该音频的文本内容。你可以在下方文本框中核对或修改。
- 模型选择：根据你的整合包和需求，在下拉列表中选择合适的模型（如 F5-TTS 或其他变体）。
配置完成后，点击 测试 按钮。如果听到合成的测试语音，说明连接成功。
关闭配置窗口，回到主界面。你可以在配音角色下拉列表中看到你刚配置的 F5-TTS 角色，选择它即可使用。

三、使用流程

按照常规流程，完成视频的语音识别和字幕翻译。
在弹出“配音角色/字幕编辑”窗口时，在右上角的“配音角色”下拉菜单中，选择你配置好的 F5-TTS 角色。
点击“合成配音”按钮，pyVideoTrans 会将字幕文本发送到你本地的 F5-TTS 服务进行语音合成。
合成完成后，继续后续的视频合并步骤。

四、注意事项与常见问题

路径问题：整合包路径、参考音频路径均不能包含中文或特殊符号。
服务保持运行：在 pyVideoTrans 使用 F5-TTS 进行配音的整个过程中，F5-TTS 的服务窗口必须保持开启状态。
显存要求：F5-TTS 对 GPU 显存有一定要求。如果合成失败或报显存不足，请尝试关闭其他占用显存的程序，或在 F5-TTS 整合包中寻找是否有启用 CPU 模式或降低精度的选项。
音频格式：参考音频建议使用清晰、单人说话、无背景音乐的 .wav 文件，以获得最佳克隆效果。
首次使用：F5-TTS 服务首次启动时可能需要下载一些依赖或模型，请耐心等待并保持网络通畅。

如果遇到具体错误，请提供 pyVideoTrans 日志文件（位于软件所在目录的 logs 文件夹内）和 F5-TTS 服务窗口的错误信息，以便进一步诊断。

有用的文档链接：

Floor #2 77.83* reply at 2 months ago

Active code page: 65001
Traceback (most recent call last):
File "D:\Program Files\f5-tts-20251216\runtime\Lib\site-packages\torchaudio\_internal\__init__.py", line 2, in

from .fb import download_url_to_file, load_state_dict_from_url

ModuleNotFoundError: No module named 'torchaudio._internal.fb'

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
File "D:\Program Files\f5-tts-20251216\src\f5_tts\infer\infer_gradio.py", line 13, in

import torchaudio

File "D:\Program Files\f5-tts-20251216\runtime\Lib\site-packages\torchaudio\__init__.py", line 2, in

from . import _extension  # noqa  # usort: skip

File "D:\Program Files\f5-tts-20251216\runtime\Lib\site-packages\torchaudio\_extension\__init__.py", line 5, in

from torchaudio._internal.module_utils import fail_with_message, is_module_available, no_op

File "D:\Program Files\f5-tts-20251216\runtime\Lib\site-packages\torchaudio\_internal\__init__.py", line 4, in

from torch.hub import download_url_to_file, load_state_dict_from_url

File "D:\Program Files\f5-tts-20251216\runtime\Lib\site-packages\torch\__init__.py", line 148, in

raise err

OSError: [WinError 126] 找不到指定的模块。 Error loading "D:\Program Files\f5-tts-20251216\runtime\Lib\site-packages\torch\lib\fbgemm.dll" or one of its dependencies.
Press any key to continue . . .

Floor #3 DeepSeek AI reply at 2 months ago

这个错误表明你下载的 F5-TTS 整合包中的 PyTorch 运行时库文件损坏或不完整，特别是 fbgemm.dll 文件缺失或无法加载。这通常是由于整合包本身打包问题、下载不完整、或解压时文件损坏导致的。

请按以下步骤解决：

1. 重新下载整合包

前往官方文档或发布页面，重新下载 F5-TTS 的 Windows 整合包。
重要：确保下载过程完整，没有中断。如果提供的是分卷压缩包，请确保下载所有分卷。

2. 更换解压路径并重新解压

不要解压到 C:\Program Files 或任何带有空格、中文或特殊字符的路径。
建议在根目录创建一个简单的英文文件夹，例如 D:\F5_TTS。
将新下载的整合包解压到这个新路径。

3. 检查杀毒软件

在解压和运行前，暂时关闭 Windows Defender 或第三方杀毒软件，它们有时会误删或隔离 .dll 文件。
解压后，将整个 F5_TTS 文件夹添加到杀毒软件的信任/排除列表中。

4. 尝试替代方案
如果重新下载后问题依旧，可能是该整合包与你系统的兼容性问题。你可以考虑：

寻找另一个版本的 F5-TTS 整合包。
使用其他类似的本地 TTS 引擎，例如 CosyVoice 或 GPT-SoVITS，它们在 pyVideoTrans 中也有很好的支持。

5. 手动修复（高级用户）
如果熟悉 Python 环境，可以尝试在整合包的 runtime 环境中手动安装/修复 PyTorch 和 torchaudio：

打开整合包目录下的 命令行终端（通常有 cmd.bat 或类似文件）。
运行命令尝试修复：
```
pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu118 --force-reinstall
```
（注意：CUDA 版本需根据你的显卡和整合包要求调整，cu118 仅为示例）。

首选解决方案是步骤 1 和 2。如果问题持续，请提供你下载整合包的具体来源链接，以便进一步分析。

有用的文档链接：
F5/Spark/index/voxpcm/Dia-TTS
从零开始制作 F5-TTS Windows 整合包

Floor #4 77.83* reply at 2 months ago

Active code page: 65001
D:\f5 tts\runtime\Lib\site-packages\google\api_core\_python_version_support.py:266: FutureWarning: You are using a Python version (3.10.11) which Google will stop supporting in new releases of google.api_core once it reaches its end of life (2026-10-04). Please upgrade to the latest Python version, or at least Python 3.11, to continue receiving updates for google.api_core past that date.
warnings.warn(message, FutureWarning)
Load vocos from local path D:/f5 tts/ckpts

vocab : D:\f5 tts\src\f5_tts\infer\examples\vocab.txt
token : custom
model : D:\f5 tts\ckpts\models--SWivid--F5-TTS\snapshots\84e5a410d9cead4de2f847e7c9369a6440bdfaca\F5TTS_v1_Base\model_1250000.safetensors

Traceback (most recent call last):
File "D:\f5 tts\src\f5_tts\infer\infer_gradio.py", line 96, in

F5TTS_ema_model = load_f5tts()

File "D:\f5 tts\src\f5_tts\infer\infer_gradio.py", line 74, in load_f5tts

return load_model(DiT, F5TTS_model_cfg, ckpt_path)

File "D:\f5 tts\src\f5_tts\infer\utils_infer.py", line 234, in load_model

model = load_checkpoint(model, ckpt_path, device, dtype=dtype, use_ema=use_ema)

File "D:\f5 tts\src\f5_tts\infer\utils_infer.py", line 165, in load_checkpoint

checkpoint = load_file(ckpt_path, device=device)

File "D:\f5 tts\runtime\Lib\site-packages\safetensors\torch.py", line 336, in load_file

with safe_open(filename, framework="pt", device=device) as f:

safetensors_rust.SafetensorError: Error while deserializing header: header too small

Floor #5 DeepSeek AI reply at 2 months ago

这个错误 SafetensorError: Error while deserializing header: header too small 表明 F5-TTS 的模型文件（model_1250000.safetensors）已损坏或下载不完整。这是导致服务启动失败的根本原因。

请按以下步骤彻底解决：

1. 删除并重新下载模型文件

模型文件位于 D:\f5 tts\ckpts\models--SWivid--F5-TTS\snapshots\84e5a410d9cead4de2f847e7c9369a6440bdfaca\F5TTS_v1_Base\ 目录下。

直接删除整个 ckpts 文件夹：D:\f5 tts\ckpts\。
重新运行启动脚本：再次运行 启动.bat 或 start.bat。脚本应该会自动重新下载模型文件。
关键点：确保网络稳定，不要中断下载过程。模型文件较大（几个GB），下载需要较长时间。

2. 检查整合包完整性

如果重新下载模型后问题依旧，可能是你下载的整个整合包不完整。

前往发布页面，重新下载整个 F5-TTS 整合包压缩文件。
计算下载文件的 MD5 或 SHA256 校验码（如果发布者提供了），与官方提供的校验码对比，确保完全一致。
将新下载的整合包解压到一个全新的、路径更简单的目录，例如 D:\F5_TTS_New（注意：路径名中不要有空格，将“f5 tts”改为“F5_TTS_New”）。

3. 手动下载模型（备用方案）

如果自动下载总是失败，可以尝试手动下载：

访问 Hugging Face 模型仓库：https://huggingface.co/SWivid/F5-TTS。
找到 F5TTS_v1_Base 目录下的 model_1250000.safetensors 文件。
使用下载工具（如 huggingface-cli、git lfs 或浏览器直接下载）将其下载到上述模型路径中，覆盖损坏的文件。

4. 路径问题修正

你的当前路径 D:\f5 tts 包含空格。虽然不一定是此错误的直接原因，但为了排除一切干扰，强烈建议在重新解压整合包时使用无空格、无中文的路径，如 D:\F5_TTS。

总结行动顺序：

首先尝试步骤1：删除 ckpts 文件夹，重新运行启动脚本，耐心等待模型完整下载。
如果不行，执行步骤2：重新下载整个整合包并更换解压路径。
网络条件差时，考虑步骤3手动下载模型。

模型文件损坏是此类整合包最常见的问题之一，重新下载通常可以解决。

有用的文档链接：
F5/Spark/index/voxpcm/Dia-TTS