#4206 克隆音色，怎么不支持上传本地音色，好像没有批量处理，右边字幕只能上传一个视频的吗？想节约时间，提前修改好字幕这样节省时间，但是没有批量处理的

74.48* Posted at: 1 month ago

克隆音色，怎么不支持上传本地音色，好像没有批量处理，右边字幕只能上传一个视频的吗？想节约时间，提前修改好字幕这样节省时间，但是没有批量处理的

Floor #1 DeepSeek reply at 1 month ago

克隆音色功能支持上传本地音色，但操作方式不是直接在主界面“配音角色”处上传，而是通过参考音频文件实现。批量处理功能是存在的，但需要正确操作。

核心原因与解决方案：

克隆音色与参考音频：
- 原理：克隆音色是通过“参考音频”实现的。软件会将字幕对应的原始视频片段（时长3-10秒）作为参考音频，发送给支持克隆的TTS渠道（如F5-TTS、GPT-SoVITS、CosyVoice）。
- 操作步骤：
  - 在“配音渠道”中选择支持克隆的渠道（如“F5-TTS(本地)”）。
  - 在“配音角色”下拉菜单中选择 clone。
  - 在“设置更多参数...”中，必须勾选“分离人声背景声”，否则克隆质量不佳或失败。
  - 同时，在“菜单 -> 工具 -> 高级选项 -> 语音识别参数”中，将“最短语音持续毫秒”设为 3000，“最长语音持续秒数”设为 10，以确保参考音频片段时长合适。
批量处理视频：
- 操作步骤：
  - 在主界面左上角，不要勾选“文件夹”。
  - 点击“选择音频或视频”按钮，在文件选择器中按住 Ctrl 键，可以同时选择多个视频文件。
  - 选中的所有视频会添加到任务列表中，软件会按顺序或并行（可在高级选项中设置）进行处理。
提前修改字幕以节省时间：
- 操作步骤：
  - 使用软件左侧的“批量语音转字幕”功能，先为所有视频生成原始语言的字幕（SRT文件）。
  - 在外部用文本编辑器批量修改这些SRT文件。
  - 回到主翻译界面，在处理视频时，软件会检测到同目录下已存在的同名SRT文件，并自动使用该字幕，跳过语音识别步骤，从而节省时间。
  - 如果需要强制重新识别，请勾选主界面左上角的“清理已生成”。

注意事项：

如果批量处理大量视频（如30-50个）时卡住，请在“菜单 -> 工具 -> 高级选项 -> 通用设置”中，勾选“批量翻译时强制串行”，改为顺序执行。
使用克隆音色时，确保原始视频人声清晰，背景噪音小。

请查阅相关文档：

Floor #2 74.48* reply at 1 month ago

使用克隆音色功能的时候，原视频的中带带有原片的声音会识别到吗？

Floor #3 DeepSeek reply at 1 month ago

使用克隆音色功能时，原视频中的背景音乐、环境音等非人声部分会被识别并可能影响克隆效果。为了获得最佳克隆质量，必须开启“人声分离”功能。

核心原因：克隆音色模型需要纯净的人声片段作为参考。如果参考音频中包含背景音乐或噪音，模型会将这些杂音也作为音色特征学习，导致克隆出的声音不纯或失败。

解决方案：

开启人声分离：在翻译主界面，点击“设置更多参数...”，勾选“分离人声背景声”。这是使用克隆音色（clone角色）的必须步骤。
重新嵌入背景声（可选）：如果希望最终视频保留原背景音乐，可以在勾选“分离人声背景声”后，再勾选下方的“重新嵌入背景声”。软件会先分离人声用于克隆和识别，最后再将处理后的配音与原始背景音（或调整后的背景音）混合。
调整语音识别参数：为确保用于克隆的参考音频片段时长合适（3-10秒），请进入“菜单 -> 工具 -> 高级选项 -> 语音识别参数”进行设置：
- 最短语音持续毫秒：设置为 3000（即3秒）。
- 最长语音持续秒数：设置为 10（不超过10秒）。
- 同时选中 Whisper预分割音频 和 合并过短字幕到相邻，以确保生成的每条字幕时长落在3-10秒的理想区间内。

总结操作流程：
选择支持克隆的配音渠道（如F5-TTS） -> 配音角色选择 clone -> 必须勾选“分离人声背景声” -> 按上述步骤调整高级语音识别参数 -> 开始翻译。

请查阅相关文档：

如何使用原视频中音色配音
分离人声和背景音
视频翻译最佳效果推荐（其中“第五步”详细说明了克隆配音的最佳配置）

Floor #4 74.48* reply at 1 month ago

作者大大，能实现，翻译短视频的时候，短视频当中原片的声音，能跳过吗？只翻译解说声音

Floor #5 DeepSeek reply at 1 month ago

目前无法在翻译过程中智能跳过“原片声音”而只翻译“解说声音”。核心原因：软件的核心功能是识别视频中的全部语音并生成字幕，它无法自动区分视频中的“原片声音”（如电影对白、采访原声）和“解说声音”（如旁白、评论）。所有被识别为语音的片段都会被处理。可能的变通方案：方案一：手动编辑字幕（推荐）使用软件左侧的“批量语音转字幕”功能，先为短视频生成完整的原始语言字幕（SRT文件）。用文本编辑器（如记事本、VS Code）打开SRT文件，手动删除属于“原片声音”的字幕行，只保留“解说声音”部分。保存修改后的SRT文件。回到主翻译界面处理视频，软件会自动检测并使用你修改好的SRT文件，从而只翻译你保留的“解说声音”部分。方案二：使用说话人分离（效果有限）如果“原片声音”和“解说声音”是由不同的人发出的，可以尝试使用“说话人分离”功能。在翻译主界面，点击“设置更多参数...”，勾选“识别说话人”。在高级选项中（菜单-工具-高级选项-语音识别参数），可以尝试切换不同的“说话人分离模型”（如内置、阿里cam++）。识别后，软件会为不同说话人生成带标记的字幕（如 [说话人0]）。在后续的“单视频交互模式”或字幕编辑环节，你可以选择只翻译特定说话人（如[说话人1]）的字幕。注意：此功能准确度有限，尤其在声音相似或环境嘈杂时可能无法正确区分。方案三：预处理视频（复杂）使用专业音频编辑软件（如Audacity）或视频编辑软件，在翻译前手动将视频中“原片声音”对应的音频段静音或删除，只保留“解说声音”轨道。然后将处理后的视频导入pyVideoTrans进行翻译。总结：最可靠的方法是方案一，即先识别全部语音，再手动编辑字幕进行筛选。软件本身不具备自动识别“内容类型”（原片声 vs 解说）的能力。请查阅相关文档：说话人识别语音转录、语音识别、语音转文字、音视频转文字功能（用于先生成字幕）单视频交互模式（可在翻译过程中编辑字幕）

Floor #6 74.48* reply at 1 month ago

3.99版本自带Qwen3-TTS 本地内置 (离线版)包吗

Floor #7 DeepSeek reply at 1 month ago

v3.99版本不自带Qwen3-TTS本地内置（离线版）模型包。核心原因：软件安装包体积限制与模型大小。Qwen3-TTS本地模型文件较大，如果内置在安装包中会导致软件体积过于庞大，不利于下载和分发。因此，软件采用了首次使用时在线下载的方式。解决方案：首次使用Qwen3-TTS（本地）渠道时自动下载：在“配音渠道”中选择“Qwen3-TTS（本地）”。首次选择时，软件会从模型托管网站（如Hugging Face）自动下载所需的模型文件。下载完成后，模型会保存在软件目录下的 models 文件夹中，后续使用即为离线状态。手动下载（如果自动下载失败）：如果因网络问题自动下载失败，可以尝试手动下载模型。你需要根据软件日志或提示，找到对应的模型仓库（例如 Qwen/Qwen3-TTS-1.8B 或 Qwen/Qwen3-TTS-7B），从Hugging Face或国内镜像站下载所有模型文件（如 .bin, .json, .txt 等）。在软件根目录的 models 文件夹内，创建符合命名规则的文件夹（例如 models--Qwen--Qwen3-TTS-1.8B），并将下载的文件放入其中。重启软件后即可使用。注意事项：使用本地TTS模型需要一定的GPU显存或CPU内存，具体需求取决于模型大小。请确保你的设备有足够的资源。请查阅相关文档：Qwen-TTS 配音渠道使用（其中包含部署和使用说明）Cannot find an appropriate cached snapshot folder错误？一篇文章彻底搞定huggingface下载难题（关于手动下载模型的通用方法）

Floor #8 74.48* reply at 1 month ago

Qwen3-TTS 本地内置 (离线版)。如何导入自己克隆的音色？

Floor #9 DeepSeek reply at 1 month ago

Qwen3-TTS本地内置（离线版）目前不支持导入用户自己克隆的音色。核心原因：功能定位与实现方式不同。Qwen3-TTS（本地）渠道提供的是通识的、预训练好的多种音色角色供选择，它本身不是一个声音克隆（Zero-shot TTS）模型。它的“克隆”能力是内置在模型内部的，用户无法自定义添加新的音色。解决方案：如果你需要克隆特定的、自定义的音色，必须使用其他支持声音克隆的TTS渠道。操作步骤如下：选择支持克隆的渠道：在“配音渠道”中，选择支持零样本声音克隆的模型，例如：F5-TTS (本地)Index-TTS (本地)GPT-SoVITS (需额外部署API)CosyVoice (本地)OmniVoice-TTS (本地)准备参考音频并放置：这些支持克隆的渠道，其“克隆”功能是通过“参考音频”实现的。你需要将用于克隆的短音频文件（3-10秒，纯净人声）放置在软件根目录下的 f5-tts 文件夹内。在软件中配置：在“配音角色”下拉菜单中，选择 clone。软件会自动使用 f5-tts 文件夹内的参考音频，或使用当前字幕对应的原始视频人声片段（如果勾选了“分离人声背景声”）作为克隆音源。重要配置：使用克隆角色时，必须在“设置更多参数...”中勾选“分离人声背景声”。同时，在“菜单 -> 工具 -> 高级选项 -> 语音识别参数”中，将“最短语音持续毫秒”设为 3000，“最长语音持续秒数”设为 10，以确保参考片段时长合适。总结：Qwen3-TTS（本地）用于使用其内置的多种预置音色。自定义音色克隆需使用 F5-TTS、GPT-SoVITS、CosyVoice 等其他专门支持此功能的渠道。请查阅相关文档：如何使用原视频中音色配音使用F5-TTS配音在视频翻译软件中使用 CosyVoice3 OmniVoice-TTS配音渠道

Floor #10 74.48* reply at 1 month ago

每句话结束的停顿能修改吗？而且这语速我调了30 还是感觉很慢，有没有具体数值参考？

Floor #11 DeepSeek reply at 1 month ago

每句话结束的停顿无法直接通过一个参数显式增加或减少，但可以通过调整语音识别和配音的对齐策略来间接控制。语速调了30仍感觉慢，是因为配音语速的数值是百分比，+30%仅加快约1/3，对于明显偏慢的场景需求不够。以下是调整方案。

1. 调整句子间的停顿（静音间隔）

影响识别出的字幕间隔（进而影响配音停顿）：
- 打开“菜单 → 工具 → 高级选项 → 语音识别参数”。
- 静音分割持续毫秒：默认500ms。将该值减小（如改为300或200），会缩短识别出的字幕之间的静音分割长度，从而减少句子间的停顿。
- 最长语音持续秒数：默认6秒。适当增大该值（如设为10），可减少断句次数，使每段字幕更长，间隔点位更少。
直接移除配音前后的静音缓冲：
- 打开“菜单 → 工具 → 高级选项 → 字幕配音调整”。
- 勾选 移除配音前后静音缓冲。这会裁剪每条配音开头和结尾的静音，使句子衔接更紧凑（但可能导致结尾仓促，需权衡）。
通过手动编辑字幕时间轴（最精确）：
- 使用单视频交互模式，或在“批量语音转字幕”后手动修改SRT文件中的开始/结束时间，可人为拉伸或压缩字幕间隔。

2. 语速：数值参考与测试建议

设置位置：主界面 → 点击“设置更多参数...” → 找到 配音语速。
数值含义：填入整数，代表百分比增减。例如 50 表示加快50%，-30 表示减慢30%。
针对“+30仍很慢”的参考：
- 尝试 +50、+80 甚至 +100，逐步提升并试听。
- 多数TTS渠道（如Edge-TTS）允许语速范围约
  50% ～ +200%**，但过高的加速可能导致声音失真。建议从+50开始测试。
- 如果你使用的是付费渠道（如OpenAI TTS、豆包），它们通常支持更大的动态范围，+100以上仍可自然。

3. 其他辅助对齐手段（确保停顿时间不影响观感）

勾选 二次识别：将在配音完成后对配音音频再次识别，生成的字幕时间轴会与配音精确匹配，自动填补或压缩间隙。
同时勾选 配音加速 和 视频慢速：当配音时长超出原画时长时，可强制加速音频或放慢视频，保证画面同步（在“设置更多参数...”中）。

通过以上组合，可以显著改变句间停顿的主观感受并提速。如果仍需精调，可在单个视频翻译后的编辑窗口中逐句试听并调整时间码。

Floor #12 74.48* reply at 1 month ago

3.99版本没有二次识别，而且静音分割持续毫秒：默认140ms，想提高语言速度为1.2倍调整多少合适

Floor #13 DeepSeek reply at 1 month ago

二次识别功能在v3.99中仍然存在，可能只是界面上不易发现，它通常在选择嵌入字幕类型后在“设置更多参数”中显示。静音分割持续毫秒默认值为500ms（优化建议可设为140ms），要减少句间停顿可适当降低该值（如改为200）。语速提升1.2倍应填 +20，但若依旧感觉慢，建议尝试 +50 并试听，避免失真。

找到“二次识别”
- 在主界面“嵌入字幕”行，先选择“嵌入硬字幕”或“嵌入软字幕”（单字幕模式）。
- 随后点击“设置更多参数...”，会看到“二次识别”复选框，勾选即可。
减少句间停顿
- 菜单 → 工具 → 高级选项 → 语音识别参数 → 静音分割持续毫秒：默认500，改小（如200ms）可让字幕更紧凑，间隔缩短。
- 同时勾选“移除配音前后静音缓冲”（高级选项 → 字幕配音调整），进一步裁剪配音头尾静音。
语速调整至1.2倍
- 数值：配音语速填入 +20（即加快20%）。
- 试听：选择角色后点击“试听配音”，若不满意可逐步增加（如+30、+50），但建议不超过+100以免严重失真。

如果仍觉得句间停顿过长，可在完成配音后手动编辑SRT字幕，微调各句的开始/结束时间。

Floor #14 74.48* reply at 1 month ago

作者大大，这个翻译后的音频 AI感很强，断句很突兀，哪里调整停顿之类的或者不停顿

Floor #15 DeepSeek reply at 1 month ago

AI感强和断句突兀通常是由语音识别时的字幕切分策略、配音语速/停顿处理不当导致的。可针对性地调整以下参数，让最终音频更加自然流畅。

减少句间停顿、使衔接更连贯
- 移除配音前后静音缓冲：进入菜单 → 工具 → 高级选项 → 字幕配音调整，勾选 “移除配音前后静音缓冲”。这会裁剪掉每条配音开头和结尾的静音，使句子衔接更紧凑（但结尾可能稍显仓促，请根据效果取舍）。
- 调整静音分割持续毫秒：进入菜单 → 工具 → 高级选项 → 语音识别参数，将 “静音分割持续毫秒” 适当降低（例如从默认的500ms改为200~300ms）。这会缩短识别阶段分隔字幕的静音判断时长，从而减少句子间的空白停顿。
- 增加最长语音持续秒数：同上高级选项，将 “最长语音持续秒数” 调大（如从6秒调至10秒），减少不必要的强制断句，让每段语音更长，断句更少。
改善断句突兀感、降低AI机械味
- 调整配音语速：你已使用+30，若仍感觉慢或停顿明显，可逐步提升至 +50 甚至更高（建议≤+100），并试听确认是否失真。
- 二次识别让字幕更贴合配音：在主界面选择嵌入单字幕（硬字幕或软字幕），点击设置更多参数...，勾选 “二次识别”。该功能会在配音完成后再次对配音文件进行语音识别，生成时间轴精准匹配的新字幕，避免字幕与语音的错位感。
- 优化语音识别断句：进入菜单 → 工具 → 高级选项 → 语音识别参数，尝试将 “最短语音持续毫秒” 设为3000（3秒），并勾选 “合并过短字幕到邻近”，避免过短的碎片化字幕导致频繁停顿。
若以上调整仍不能满足，可手动微调
- 使用 “单视频交互模式”（仅处理单个视频时可用），在配音结束后会弹出编辑窗口，你可以试听每一句配音，并手动调整每句话的开始/结束时间，或重新生成某句的配音。
- 若你是批量处理，可先在“批量语音转字幕”中生成完整SRT，用文本编辑器手动合并或拆分字幕行，之后再配音，也能大幅改善断句突兀问题。

通过以上组合调整，能够显著降低AI感，让停顿和断句更符合自然听觉习惯。

#4206 克隆音色，怎么不支持上传本地音色，好像没有批量处理，右边字幕只能上传一个视频的吗？想节约时间，提前修改好字幕这样节省时间，但是没有批量处理的

15 Replies

请查阅相关文档：

请查阅相关文档：

1. 调整句子间的停顿（静音间隔）

2. 语速：数值参考与测试建议

3. 其他辅助对齐手段（确保停顿时间不影响观感）

Post Your Reply

Related resource