#4782 只有翻译视频或音频里可以使用本地克隆原声吗?

219.134* Posted at: 10 hours ago

在字幕多角色拼音中可以使用本地克隆原声吗?

7 Replies

在「字幕多角色配音」中 不能 使用本地克隆原声(clone 角色)。clone 原音色克隆功能仅存在于主界面「翻译视频和音频」的配音角色列表中,适用于视频翻译流程(含单视频交互模式)。

字幕多角色配音功能(左侧工具栏「字幕多角色配音」)需要你手动为每条字幕指定不同的 TTS 发音角色,不支持自动以原视频音色进行克隆。如果你希望实现多角色同时保留原声克隆,仍建议在视频翻译中使用单视频交互模式,配合说话人分离后为每条字幕分配 clone 角色。

请查阅相关文档:

视频交互模式是什么意思?

视频交互模式是指只选择一个视频进行标准翻译时,处理流程会在关键阶段自动暂停,弹出编辑窗口供你手动校对和调整,从而提高最终质量。具体包括以下四个暂停点:

  1. 语音识别后:弹出原始字幕编辑框,可修改文字错别字和时间轴。
  2. 字幕翻译后:弹出目标字幕编辑框,可在此为不同说话人分配不同的配音角色。
  3. 配音生成后:弹出配音校对框,可试听并单独重新合成某句配音。
  4. 二次识别后(若开启):弹出字幕编辑框,可修正文字。

此模式默认启用,倒计时时间可在「菜单 → 工具 → 高级选项 → 通用设置 → 单视频交互翻译暂停倒计时」中调整(设为 0 则跳过所有编辑窗口)。

请查阅相关文档:

使用克隆声音的时候循环卡死。我看到这样两个建议,帮我看看是否有效。
打开 pyVideoTrans,进入顶部菜单 工具/选项 → 高级选项
找到 “字幕配音调整” 区域
将 “同时配音线程数” 从 4 或 8 改为 1
将 “配音后暂停秒数” 设置为 5(或更高,如 10)
点击“保存”,重启软件

使用 clone 角色时,必须在 TTS 设置里提供参考音频文件,否则会报错。

请检查以下步骤是否已完成:

准备一个 3-10 秒、发音清晰的 .wav 格式音频文件
将该文件放入 ~/pyvideotrans/f5-tts/ 目录(Qwen-TTS 与 F5-TTS 共用该文件夹)
在软件中,进入 菜单 → TTS设置 → Qwen-TTS(本地),填写参考音频文件名(含后缀,如 myvoice.wav)

你的两个建议需要区分场景来判断有效性:

第一个建议(降低并发、增加间隔)有效。

  • 这是针对所有配音渠道(包括克隆声音)的通用优化。当并发数过高或请求间隔过短时,TTS 服务端(如 Edge-TTS 或本地 API)可能因限流或资源争抢导致卡死。
  • 操作方法:菜单 → 工具/选项 → 高级选项 → 字幕配音调整区域,将“同时配音线程数”设为 1,“配音后暂停秒数”设为 5~10,保存后重启软件。

第二个建议(手动放置参考音频文件)无效。

  • 你在视频翻译主界面中选择了 clone 角色时,软件会自动从原始视频中截取对应时长的语音片段作为参考音频,无需你手动准备 .wav 文件或填写文件名。
  • 手动放置参考音频只在以下情况需要:

    • 使用 字幕多角色配音 功能(非 clone 模式)
    • 配音渠道(如 F5-TTS、CosyVoice 等)中选用了特定发音人(而非 clone)并要求提供参考音频

如果你确认是在视频翻译流程中使用了 clone 角色,请忽略第二个建议,只需按第一个建议调整并发参数即可。若问题仍然存在,请提供 logs/ 目录下的最新日志(底部约 30 行),以便进一步分析。

请查阅相关文档:

克隆的速度非常慢,基本上卡住了。有别的推荐工具或方式吗?

克隆速度慢甚至卡住,通常是因为没有开启 CUDA 加速参考音频过长模型过大并发设置不合理。以下优化方案和建议:


✅ 优先排查(最可能解决)

  1. 开启 CUDA 加速
    在主界面左下角务必勾选 CUDA加速,否则转用 CPU 推理会极慢。
    若已勾选但仍慢,请检查 CUDA 版本是否 ≥12.8,cuDNN ≥9.11,并在命令行运行 nvcc -V 确认。
  2. 调整克隆参数
    进入 菜单 → 工具/选项 → 高级选项 → 语音识别参数

    • 最短语音持续毫秒3000
    • 最长语音持续秒数10
    • 勾选 Whisper预分割音频合并过短字幕到邻近
      这能确保每段参考音频长度在 3~10 秒之间,避免因过长导致处理卡死。
  3. 降低并发与模型大小

    • 字幕配音调整 区域,将 同时配音线程数 设为 1配音后暂停秒数 设为 5
    • 如果使用 Faster-Whisper,将模型从 large-v3 降为 mediumsmall,显存压力更小、速度更快。

🔁 替代工具/方式推荐

若上述优化后仍无法忍受速度,建议放弃本地克隆,改用以下方式:

替代方案说明速度
OmniVoice-TTS(本地)同样支持声音克隆,但对短参考音频更友好,出错率低比 F5-TTS/CosyVoice 快
Edge-TTS(免费在线)完全免费,开箱即用,速度极快,但不支持克隆原声⭐最快
OpenAI-TTS / GPt-4o 配音在线 API,音质好,需付费快(在线)
Qwen-TTS(本地)软件内置,支持克隆,速度适中,可优先尝试较快

📌 总结建议

  1. 先按“✅ 优先排查”步骤优化,多数情况下可解决卡死问题。
  2. 若仍无法接受速度,改用 Edge-TTS(免费) 直接配音,放弃原声克隆。
  3. 如果必须保留原音色但想提速,切换到 OmniVoice-TTS 配音渠道(在配音角色中选择 clone)。

请查阅相关文档:

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource