#2294 F5 TTS教程,之前的没有了,我需要一份完整的,可以接入PYVIDEOTRANS的教程

77.83* Posted at: 4 hours ago 👁10

F5 TTS教程,之前的没有了,我需要一份完整的,可以接入PYVIDEOTRANS的教程

5 Replies

以下是 F5-TTS 接入 pyVideoTrans 的完整教程。F5-TTS 是一个高质量的本地语音合成引擎,支持音色克隆。

一、环境准备与部署

  1. 下载整合包:访问官方文档,下载适用于 Windows 的 F5-TTS 一键整合包。通常包含模型、依赖和启动脚本。

  2. 解压与启动

    • 将整合包解压到纯英文路径(如 D:\F5-TTS)。
    • 根据整合包内的说明启动服务。通常是通过运行 启动.batstart.bat 文件。
    • 成功启动后,命令行窗口会显示服务运行在本地的一个端口(例如 http://127.0.0.1:7860)。请保持此窗口运行

二、在 pyVideoTrans 中配置

  1. 打开 pyVideoTrans 软件。
  2. 在主界面第 4 行“配音” 区域,选择配音渠道为 F5-TTS
  3. 点击配音渠道右侧的 设置 按钮,进入 F5-TTS 配置页面。
  4. 关键配置项:

    • API地址:填写 F5-TTS 服务启动后显示的地址,通常是 http://127.0.0.1:7860
    • 参考音频(用于音色克隆):

      • 点击“参考音频”旁的文件夹图标,选择一个 .wav 格式的音频文件(包含你想要克隆的目标人声)。
      • 软件会自动提取该音频的文本内容。你可以在下方文本框中核对或修改。
    • 模型选择:根据你的整合包和需求,在下拉列表中选择合适的模型(如 F5-TTS 或其他变体)。
  5. 配置完成后,点击 测试 按钮。如果听到合成的测试语音,说明连接成功。
  6. 关闭配置窗口,回到主界面。你可以在配音角色下拉列表中看到你刚配置的 F5-TTS 角色,选择它即可使用。

三、使用流程

  1. 按照常规流程,完成视频的语音识别字幕翻译
  2. 在弹出“配音角色/字幕编辑”窗口时,在右上角的“配音角色”下拉菜单中,选择你配置好的 F5-TTS 角色
  3. 点击“合成配音”按钮,pyVideoTrans 会将字幕文本发送到你本地的 F5-TTS 服务进行语音合成。
  4. 合成完成后,继续后续的视频合并步骤。

四、注意事项与常见问题

  • 路径问题:整合包路径、参考音频路径均不能包含中文或特殊符号。
  • 服务保持运行:在 pyVideoTrans 使用 F5-TTS 进行配音的整个过程中,F5-TTS 的服务窗口必须保持开启状态。
  • 显存要求:F5-TTS 对 GPU 显存有一定要求。如果合成失败或报显存不足,请尝试关闭其他占用显存的程序,或在 F5-TTS 整合包中寻找是否有启用 CPU 模式或降低精度的选项。
  • 音频格式:参考音频建议使用清晰、单人说话、无背景音乐的 .wav 文件,以获得最佳克隆效果。
  • 首次使用:F5-TTS 服务首次启动时可能需要下载一些依赖或模型,请耐心等待并保持网络通畅。

如果遇到具体错误,请提供 pyVideoTrans 日志文件(位于软件所在目录的 logs 文件夹内)和 F5-TTS 服务窗口的错误信息,以便进一步诊断。

有用的文档链接:

Active code page: 65001
Traceback (most recent call last):
File "D:\Program Files\f5-tts-20251216\runtime\Lib\site-packages\torchaudio\_internal\__init__.py", line 2, in

from .fb import download_url_to_file, load_state_dict_from_url

ModuleNotFoundError: No module named 'torchaudio._internal.fb'

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
File "D:\Program Files\f5-tts-20251216\src\f5_tts\infer\infer_gradio.py", line 13, in

import torchaudio

File "D:\Program Files\f5-tts-20251216\runtime\Lib\site-packages\torchaudio\__init__.py", line 2, in

from . import _extension  # noqa  # usort: skip

File "D:\Program Files\f5-tts-20251216\runtime\Lib\site-packages\torchaudio\_extension\__init__.py", line 5, in

from torchaudio._internal.module_utils import fail_with_message, is_module_available, no_op

File "D:\Program Files\f5-tts-20251216\runtime\Lib\site-packages\torchaudio\_internal\__init__.py", line 4, in

from torch.hub import download_url_to_file, load_state_dict_from_url

File "D:\Program Files\f5-tts-20251216\runtime\Lib\site-packages\torch\__init__.py", line 148, in

raise err

OSError: [WinError 126] 找不到指定的模块。 Error loading "D:\Program Files\f5-tts-20251216\runtime\Lib\site-packages\torch\lib\fbgemm.dll" or one of its dependencies.
Press any key to continue . . .

这个错误表明你下载的 F5-TTS 整合包中的 PyTorch 运行时库文件损坏或不完整,特别是 fbgemm.dll 文件缺失或无法加载。这通常是由于整合包本身打包问题、下载不完整、或解压时文件损坏导致的。

请按以下步骤解决:

1. 重新下载整合包

  • 前往官方文档或发布页面,重新下载 F5-TTS 的 Windows 整合包。
  • 重要:确保下载过程完整,没有中断。如果提供的是分卷压缩包,请确保下载所有分卷。

2. 更换解压路径并重新解压

  • 不要解压到 C:\Program Files 或任何带有空格、中文或特殊字符的路径。
  • 建议在根目录创建一个简单的英文文件夹,例如 D:\F5_TTS
  • 将新下载的整合包解压到这个新路径。

3. 检查杀毒软件

  • 在解压和运行前,暂时关闭 Windows Defender 或第三方杀毒软件,它们有时会误删或隔离 .dll 文件。
  • 解压后,将整个 F5_TTS 文件夹添加到杀毒软件的信任/排除列表中。

4. 尝试替代方案
如果重新下载后问题依旧,可能是该整合包与你系统的兼容性问题。你可以考虑:

  • 寻找另一个版本的 F5-TTS 整合包。
  • 使用其他类似的本地 TTS 引擎,例如 CosyVoiceGPT-SoVITS,它们在 pyVideoTrans 中也有很好的支持。

5. 手动修复(高级用户)
如果熟悉 Python 环境,可以尝试在整合包的 runtime 环境中手动安装/修复 PyTorch 和 torchaudio:

  1. 打开整合包目录下的 命令行终端(通常有 cmd.bat 或类似文件)。
  2. 运行命令尝试修复:

    pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu118 --force-reinstall

    (注意:CUDA 版本需根据你的显卡和整合包要求调整,cu118 仅为示例)。

首选解决方案是步骤 1 和 2。如果问题持续,请提供你下载整合包的具体来源链接,以便进一步分析。

有用的文档链接:
F5/Spark/index/voxpcm/Dia-TTS
从零开始制作 F5-TTS Windows 整合包

Active code page: 65001
D:\f5 tts\runtime\Lib\site-packages\google\api_core\_python_version_support.py:266: FutureWarning: You are using a Python version (3.10.11) which Google will stop supporting in new releases of google.api_core once it reaches its end of life (2026-10-04). Please upgrade to the latest Python version, or at least Python 3.11, to continue receiving updates for google.api_core past that date.
warnings.warn(message, FutureWarning)
Load vocos from local path D:/f5 tts/ckpts

vocab : D:\f5 tts\src\f5_tts\infer\examples\vocab.txt
token : custom
model : D:\f5 tts\ckpts\models--SWivid--F5-TTS\snapshots\84e5a410d9cead4de2f847e7c9369a6440bdfaca\F5TTS_v1_Base\model_1250000.safetensors

Traceback (most recent call last):
File "D:\f5 tts\src\f5_tts\infer\infer_gradio.py", line 96, in

F5TTS_ema_model = load_f5tts()

File "D:\f5 tts\src\f5_tts\infer\infer_gradio.py", line 74, in load_f5tts

return load_model(DiT, F5TTS_model_cfg, ckpt_path)

File "D:\f5 tts\src\f5_tts\infer\utils_infer.py", line 234, in load_model

model = load_checkpoint(model, ckpt_path, device, dtype=dtype, use_ema=use_ema)

File "D:\f5 tts\src\f5_tts\infer\utils_infer.py", line 165, in load_checkpoint

checkpoint = load_file(ckpt_path, device=device)

File "D:\f5 tts\runtime\Lib\site-packages\safetensors\torch.py", line 336, in load_file

with safe_open(filename, framework="pt", device=device) as f:

safetensors_rust.SafetensorError: Error while deserializing header: header too small

这个错误 SafetensorError: Error while deserializing header: header too small 表明 F5-TTS 的模型文件(model_1250000.safetensors已损坏下载不完整。这是导致服务启动失败的根本原因。

请按以下步骤彻底解决:

1. 删除并重新下载模型文件

模型文件位于 D:\f5 tts\ckpts\models--SWivid--F5-TTS\snapshots\84e5a410d9cead4de2f847e7c9369a6440bdfaca\F5TTS_v1_Base\ 目录下。

  • 直接删除整个 ckpts 文件夹D:\f5 tts\ckpts\
  • 重新运行启动脚本:再次运行 启动.batstart.bat。脚本应该会自动重新下载模型文件。
  • 关键点:确保网络稳定,不要中断下载过程。模型文件较大(几个GB),下载需要较长时间。

2. 检查整合包完整性

如果重新下载模型后问题依旧,可能是你下载的整个整合包不完整。

  • 前往发布页面,重新下载整个 F5-TTS 整合包压缩文件
  • 计算下载文件的 MD5 或 SHA256 校验码(如果发布者提供了),与官方提供的校验码对比,确保完全一致。
  • 将新下载的整合包解压到一个全新的、路径更简单的目录,例如 D:\F5_TTS_New注意:路径名中不要有空格,将“f5 tts”改为“F5_TTS_New”)。

3. 手动下载模型(备用方案)

如果自动下载总是失败,可以尝试手动下载:

  1. 访问 Hugging Face 模型仓库:https://huggingface.co/SWivid/F5-TTS
  2. 找到 F5TTS_v1_Base 目录下的 model_1250000.safetensors 文件。
  3. 使用下载工具(如 huggingface-cligit lfs 或浏览器直接下载)将其下载到上述模型路径中,覆盖损坏的文件。

4. 路径问题修正

你的当前路径 D:\f5 tts 包含空格。虽然不一定是此错误的直接原因,但为了排除一切干扰,强烈建议在重新解压整合包时使用无空格、无中文的路径,如 D:\F5_TTS

总结行动顺序:

  1. 首先尝试步骤1:删除 ckpts 文件夹,重新运行启动脚本,耐心等待模型完整下载。
  2. 如果不行,执行步骤2:重新下载整个整合包并更换解压路径。
  3. 网络条件差时,考虑步骤3手动下载模型。

模型文件损坏是此类整合包最常见的问题之一,重新下载通常可以解决。

有用的文档链接:
F5/Spark/index/voxpcm/Dia-TTS

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Donate: https://ko-fi.com/jianchang512

Trending Questions