#4782 只有翻译视频或音频里可以使用本地克隆原声吗？

219.134* Posted at: 1 month ago

在字幕多角色拼音中可以使用本地克隆原声吗？

Floor #1 DeepSeek reply at 1 month ago

在「字幕多角色配音」中不能使用本地克隆原声（clone 角色）。clone 原音色克隆功能仅存在于主界面「翻译视频和音频」的配音角色列表中，适用于视频翻译流程（含单视频交互模式）。

字幕多角色配音功能（左侧工具栏「字幕多角色配音」）需要你手动为每条字幕指定不同的 TTS 发音角色，不支持自动以原视频音色进行克隆。如果你希望实现多角色同时保留原声克隆，仍建议在视频翻译中使用单视频交互模式，配合说话人分离后为每条字幕分配 clone 角色。

请查阅相关文档：

原声克隆与多角色配音

Floor #2 219.134* reply at 1 month ago

视频交互模式是什么意思？

Floor #3 DeepSeek reply at 1 month ago

视频交互模式是指只选择一个视频进行标准翻译时，处理流程会在关键阶段自动暂停，弹出编辑窗口供你手动校对和调整，从而提高最终质量。具体包括以下四个暂停点：

语音识别后：弹出原始字幕编辑框，可修改文字错别字和时间轴。
字幕翻译后：弹出目标字幕编辑框，可在此为不同说话人分配不同的配音角色。
配音生成后：弹出配音校对框，可试听并单独重新合成某句配音。
二次识别后（若开启）：弹出字幕编辑框，可修正文字。

此模式默认启用，倒计时时间可在「菜单 → 工具 → 高级选项 → 通用设置 → 单视频交互翻译暂停倒计时」中调整（设为 0 则跳过所有编辑窗口）。

请查阅相关文档：

单视频交互模式

Floor #4 219.134* reply at 1 month ago

使用克隆声音的时候循环卡死。我看到这样两个建议，帮我看看是否有效。
打开 pyVideoTrans，进入顶部菜单工具/选项 → 高级选项
找到 “字幕配音调整” 区域
将 “同时配音线程数” 从 4 或 8 改为 1
将 “配音后暂停秒数” 设置为 5（或更高，如 10）
点击“保存”，重启软件

使用 clone 角色时，必须在 TTS 设置里提供参考音频文件，否则会报错。

请检查以下步骤是否已完成：

准备一个 3-10 秒、发音清晰的 .wav 格式音频文件
将该文件放入 ~/pyvideotrans/f5-tts/ 目录（Qwen-TTS 与 F5-TTS 共用该文件夹）
在软件中，进入菜单 → TTS设置 → Qwen-TTS（本地），填写参考音频文件名（含后缀，如 myvoice.wav）

Floor #5 DeepSeek reply at 1 month ago

你的两个建议需要区分场景来判断有效性：

第一个建议（降低并发、增加间隔）有效。

这是针对所有配音渠道（包括克隆声音）的通用优化。当并发数过高或请求间隔过短时，TTS 服务端（如 Edge-TTS 或本地 API）可能因限流或资源争抢导致卡死。
操作方法：菜单 → 工具/选项 → 高级选项 → 字幕配音调整区域，将“同时配音线程数”设为 1，“配音后暂停秒数”设为 5~10，保存后重启软件。

第二个建议（手动放置参考音频文件）无效。

你在视频翻译主界面中选择了 clone 角色时，软件会自动从原始视频中截取对应时长的语音片段作为参考音频，无需你手动准备 .wav 文件或填写文件名。
手动放置参考音频只在以下情况需要：
- 使用 字幕多角色配音 功能（非 clone 模式）
- 在 配音渠道（如 F5-TTS、CosyVoice 等）中选用了特定发音人（而非 clone）并要求提供参考音频

如果你确认是在视频翻译流程中使用了 clone 角色，请忽略第二个建议，只需按第一个建议调整并发参数即可。若问题仍然存在，请提供 logs/ 目录下的最新日志（底部约 30 行），以便进一步分析。

请查阅相关文档：

Floor #6 219.134* reply at 1 month ago

克隆的速度非常慢，基本上卡住了。有别的推荐工具或方式吗？

Floor #7 DeepSeek reply at 1 month ago

克隆速度慢甚至卡住，通常是因为没有开启 CUDA 加速、参考音频过长、模型过大或并发设置不合理。以下优化方案和建议：

✅ 优先排查（最可能解决）

开启 CUDA 加速
在主界面左下角务必勾选 CUDA加速，否则转用 CPU 推理会极慢。
若已勾选但仍慢，请检查 CUDA 版本是否 ≥12.8，cuDNN ≥9.11，并在命令行运行 nvcc -V 确认。
调整克隆参数
进入 菜单 → 工具/选项 → 高级选项 → 语音识别参数：
- 最短语音持续毫秒 → 3000
- 最长语音持续秒数 → 10
- 勾选 Whisper预分割音频 和 合并过短字幕到邻近
  这能确保每段参考音频长度在 3~10 秒之间，避免因过长导致处理卡死。
降低并发与模型大小
- 在 字幕配音调整 区域，将 同时配音线程数 设为 1，配音后暂停秒数 设为 5。
- 如果使用 Faster-Whisper，将模型从 large-v3 降为 medium 或 small，显存压力更小、速度更快。

🔁 替代工具/方式推荐

若上述优化后仍无法忍受速度，建议放弃本地克隆，改用以下方式：

替代方案	说明	速度
OmniVoice-TTS（本地）	同样支持声音克隆，但对短参考音频更友好，出错率低	比 F5-TTS/CosyVoice 快
Edge-TTS（免费在线）	完全免费，开箱即用，速度极快，但不支持克隆原声	⭐最快
OpenAI-TTS / GPt-4o 配音	在线 API，音质好，需付费	快（在线）
Qwen-TTS（本地）	软件内置，支持克隆，速度适中，可优先尝试	较快

📌 总结建议

先按“✅ 优先排查”步骤优化，多数情况下可解决卡死问题。
若仍无法接受速度，改用 Edge-TTS（免费） 直接配音，放弃原声克隆。
如果必须保留原音色但想提速，切换到 OmniVoice-TTS 配音渠道（在配音角色中选择 clone）。

请查阅相关文档：

#4782 只有翻译视频或音频里可以使用本地克隆原声吗？

7 Replies

请查阅相关文档：

请查阅相关文档：

请查阅相关文档：

✅ 优先排查（最可能解决）

🔁 替代工具/方式推荐

📌 总结建议

Post Your Reply

Related resource