#4206 克隆音色,怎么不支持上传本地音色,好像没有批量处理,右边字幕只能上传一个视频的吗?想节约时间,提前修改好字幕这样节省时间,但是没有批量处理的

74.48* Posted at: 20 days ago 👁118

克隆音色,怎么不支持上传本地音色,好像没有批量处理,右边字幕只能上传一个视频的吗?想节约时间,提前修改好字幕这样节省时间,但是没有批量处理的

15 Replies

克隆音色功能支持上传本地音色,但操作方式不是直接在主界面“配音角色”处上传,而是通过参考音频文件实现。批量处理功能是存在的,但需要正确操作。

核心原因与解决方案:

  1. 克隆音色与参考音频

    • 原理:克隆音色是通过“参考音频”实现的。软件会将字幕对应的原始视频片段(时长3-10秒)作为参考音频,发送给支持克隆的TTS渠道(如F5-TTS、GPT-SoVITS、CosyVoice)。
    • 操作步骤

      • 在“配音渠道”中选择支持克隆的渠道(如“F5-TTS(本地)”)。
      • 在“配音角色”下拉菜单中选择 clone
      • 在“设置更多参数...”中,必须勾选“分离人声背景声”,否则克隆质量不佳或失败。
      • 同时,在“菜单 -> 工具 -> 高级选项 -> 语音识别参数”中,将“最短语音持续毫秒”设为 3000,“最长语音持续秒数”设为 10,以确保参考音频片段时长合适。
  2. 批量处理视频

    • 操作步骤

      • 在主界面左上角,不要勾选“文件夹”
      • 点击“选择音频或视频”按钮,在文件选择器中按住 Ctrl,可以同时选择多个视频文件。
      • 选中的所有视频会添加到任务列表中,软件会按顺序或并行(可在高级选项中设置)进行处理。
  3. 提前修改字幕以节省时间

    • 操作步骤

      • 使用软件左侧的“批量语音转字幕”功能,先为所有视频生成原始语言的字幕(SRT文件)。
      • 在外部用文本编辑器批量修改这些SRT文件。
      • 回到主翻译界面,在处理视频时,软件会检测到同目录下已存在的同名SRT文件,并自动使用该字幕,跳过语音识别步骤,从而节省时间。
      • 如果需要强制重新识别,请勾选主界面左上角的“清理已生成”。

注意事项

  • 如果批量处理大量视频(如30-50个)时卡住,请在“菜单 -> 工具 -> 高级选项 -> 通用设置”中,勾选“批量翻译时强制串行”,改为顺序执行。
  • 使用克隆音色时,确保原始视频人声清晰,背景噪音小。

请查阅相关文档:

使用克隆音色功能的时候,原视频的中带带有原片的声音会识别到吗?

使用克隆音色功能时,原视频中的背景音乐、环境音等非人声部分会被识别并可能影响克隆效果。为了获得最佳克隆质量,必须开启“人声分离”功能。

核心原因:克隆音色模型需要纯净的人声片段作为参考。如果参考音频中包含背景音乐或噪音,模型会将这些杂音也作为音色特征学习,导致克隆出的声音不纯或失败。

解决方案

  1. 开启人声分离:在翻译主界面,点击“设置更多参数...”,勾选“分离人声背景声”。这是使用克隆音色(clone角色)的必须步骤
  2. 重新嵌入背景声(可选):如果希望最终视频保留原背景音乐,可以在勾选“分离人声背景声”后,再勾选下方的“重新嵌入背景声”。软件会先分离人声用于克隆和识别,最后再将处理后的配音与原始背景音(或调整后的背景音)混合。
  3. 调整语音识别参数:为确保用于克隆的参考音频片段时长合适(3-10秒),请进入“菜单 -> 工具 -> 高级选项 -> 语音识别参数”进行设置:

    • 最短语音持续毫秒:设置为 3000(即3秒)。
    • 最长语音持续秒数:设置为 10(不超过10秒)。
    • 同时选中 Whisper预分割音频合并过短字幕到相邻,以确保生成的每条字幕时长落在3-10秒的理想区间内。

总结操作流程
选择支持克隆的配音渠道(如F5-TTS) -> 配音角色选择 clone -> 必须勾选“分离人声背景声” -> 按上述步骤调整高级语音识别参数 -> 开始翻译。

请查阅相关文档:

作者大大,能实现,翻译短视频的时候,短视频当中原片的声音,能跳过吗?只翻译解说声音

目前无法在翻译过程中智能跳过“原片声音”而只翻译“解说声音”。核心原因:软件的核心功能是识别视频中的全部语音并生成字幕,它无法自动区分视频中的“原片声音”(如电影对白、采访原声)和“解说声音”(如旁白、评论)。所有被识别为语音的片段都会被处理。可能的变通方案:方案一:手动编辑字幕(推荐)使用软件左侧的“批量语音转字幕”功能,先为短视频生成完整的原始语言字幕(SRT文件)。用文本编辑器(如记事本、VS Code)打开SRT文件,手动删除属于“原片声音”的字幕行,只保留“解说声音”部分。保存修改后的SRT文件。回到主翻译界面处理视频,软件会自动检测并使用你修改好的SRT文件,从而只翻译你保留的“解说声音”部分。方案二:使用说话人分离(效果有限)如果“原片声音”和“解说声音”是由不同的人发出的,可以尝试使用“说话人分离”功能。在翻译主界面,点击“设置更多参数...”,勾选“识别说话人”。在高级选项中(菜单-工具-高级选项-语音识别参数),可以尝试切换不同的“说话人分离模型”(如内置、阿里cam++)。识别后,软件会为不同说话人生成带标记的字幕(如 [说话人0])。在后续的“单视频交互模式”或字幕编辑环节,你可以选择只翻译特定说话人(如[说话人1])的字幕。注意:此功能准确度有限,尤其在声音相似或环境嘈杂时可能无法正确区分。方案三:预处理视频(复杂)使用专业音频编辑软件(如Audacity)或视频编辑软件,在翻译前手动将视频中“原片声音”对应的音频段静音或删除,只保留“解说声音”轨道。然后将处理后的视频导入pyVideoTrans进行翻译。总结:最可靠的方法是方案一,即先识别全部语音,再手动编辑字幕进行筛选。软件本身不具备自动识别“内容类型”(原片声 vs 解说)的能力。请查阅相关文档:说话人识别语音转录、语音识别、语音转文字、音视频转文字功能(用于先生成字幕)单视频交互模式(可在翻译过程中编辑字幕)

3.99版本自带Qwen3-TTS 本地内置 (离线版)包吗

v3.99版本自带Qwen3-TTS本地内置(离线版)模型包。核心原因:软件安装包体积限制与模型大小。Qwen3-TTS本地模型文件较大,如果内置在安装包中会导致软件体积过于庞大,不利于下载和分发。因此,软件采用了首次使用时在线下载的方式。解决方案:首次使用Qwen3-TTS(本地)渠道时自动下载:在“配音渠道”中选择“Qwen3-TTS(本地)”。首次选择时,软件会从模型托管网站(如Hugging Face)自动下载所需的模型文件。下载完成后,模型会保存在软件目录下的 models 文件夹中,后续使用即为离线状态。手动下载(如果自动下载失败):如果因网络问题自动下载失败,可以尝试手动下载模型。你需要根据软件日志或提示,找到对应的模型仓库(例如 Qwen/Qwen3-TTS-1.8BQwen/Qwen3-TTS-7B),从Hugging Face或国内镜像站下载所有模型文件(如 .bin, .json, .txt 等)。在软件根目录的 models 文件夹内,创建符合命名规则的文件夹(例如 models--Qwen--Qwen3-TTS-1.8B),并将下载的文件放入其中。重启软件后即可使用。注意事项:使用本地TTS模型需要一定的GPU显存或CPU内存,具体需求取决于模型大小。请确保你的设备有足够的资源。请查阅相关文档:Qwen-TTS 配音渠道使用(其中包含部署和使用说明)Cannot find an appropriate cached snapshot folder错误?一篇文章彻底搞定huggingface下载难题(关于手动下载模型的通用方法)

Qwen3-TTS 本地内置 (离线版)。如何导入自己克隆的音色?

Qwen3-TTS本地内置(离线版)目前不支持导入用户自己克隆的音色。核心原因:功能定位与实现方式不同。Qwen3-TTS(本地)渠道提供的是通识的、预训练好的多种音色角色供选择,它本身不是一个声音克隆(Zero-shot TTS)模型。它的“克隆”能力是内置在模型内部的,用户无法自定义添加新的音色。解决方案:如果你需要克隆特定的、自定义的音色,必须使用其他支持声音克隆的TTS渠道。操作步骤如下:选择支持克隆的渠道:在“配音渠道”中,选择支持零样本声音克隆的模型,例如:F5-TTS (本地)Index-TTS (本地)GPT-SoVITS (需额外部署API)CosyVoice (本地)OmniVoice-TTS (本地)准备参考音频并放置:这些支持克隆的渠道,其“克隆”功能是通过“参考音频”实现的。你需要将用于克隆的短音频文件(3-10秒,纯净人声)放置在软件根目录下的 f5-tts 文件夹内。在软件中配置:在“配音角色”下拉菜单中,选择 clone。软件会自动使用 f5-tts 文件夹内的参考音频,或使用当前字幕对应的原始视频人声片段(如果勾选了“分离人声背景声”)作为克隆音源。重要配置:使用克隆角色时,必须在“设置更多参数...”中勾选“分离人声背景声”。同时,在“菜单 -> 工具 -> 高级选项 -> 语音识别参数”中,将“最短语音持续毫秒”设为 3000,“最长语音持续秒数”设为 10,以确保参考片段时长合适。总结:Qwen3-TTS(本地)用于使用其内置的多种预置音色。自定义音色克隆需使用 F5-TTS、GPT-SoVITS、CosyVoice 等其他专门支持此功能的渠道。请查阅相关文档:如何使用原视频中音色配音使用F5-TTS配音在视频翻译软件中使用 CosyVoice3OmniVoice-TTS配音渠道

每句话结束的停顿能修改吗?而且这语速我调了30 还是感觉很慢,有没有具体数值参考?

每句话结束的停顿无法直接通过一个参数显式增加或减少,但可以通过调整语音识别和配音的对齐策略来间接控制。语速调了30仍感觉慢,是因为配音语速的数值是百分比,+30%仅加快约1/3,对于明显偏慢的场景需求不够。以下是调整方案。

1. 调整句子间的停顿(静音间隔)

  • 影响识别出的字幕间隔(进而影响配音停顿):

    • 打开“菜单 → 工具 → 高级选项 → 语音识别参数”。
    • 静音分割持续毫秒:默认500ms。将该值减小(如改为300或200),会缩短识别出的字幕之间的静音分割长度,从而减少句子间的停顿。
    • 最长语音持续秒数:默认6秒。适当增大该值(如设为10),可减少断句次数,使每段字幕更长,间隔点位更少。
  • 直接移除配音前后的静音缓冲

    • 打开“菜单 → 工具 → 高级选项 → 字幕配音调整”。
    • 勾选 移除配音前后静音缓冲。这会裁剪每条配音开头和结尾的静音,使句子衔接更紧凑(但可能导致结尾仓促,需权衡)。
  • 通过手动编辑字幕时间轴(最精确):

    • 使用单视频交互模式,或在“批量语音转字幕”后手动修改SRT文件中的开始/结束时间,可人为拉伸或压缩字幕间隔。

2. 语速:数值参考与测试建议

  • 设置位置:主界面 → 点击“设置更多参数...” → 找到 配音语速
  • 数值含义:填入整数,代表百分比增减。例如 50 表示加快50%,-30 表示减慢30%。
  • 针对“+30仍很慢”的参考

    • 尝试 +50+80 甚至 +100,逐步提升并试听。
    • 多数TTS渠道(如Edge-TTS)允许语速范围约
      50% ~ +200%**,但过高的加速可能导致声音失真。建议从+50开始测试。
    • 如果你使用的是付费渠道(如OpenAI TTS、豆包),它们通常支持更大的动态范围,+100以上仍可自然。

3. 其他辅助对齐手段(确保停顿时间不影响观感)

  • 勾选 二次识别:将在配音完成后对配音音频再次识别,生成的字幕时间轴会与配音精确匹配,自动填补或压缩间隙。
  • 同时勾选 配音加速视频慢速:当配音时长超出原画时长时,可强制加速音频或放慢视频,保证画面同步(在“设置更多参数...”中)。

通过以上组合,可以显著改变句间停顿的主观感受并提速。如果仍需精调,可在单个视频翻译后的编辑窗口中逐句试听并调整时间码。

3.99版本没有二次识别,而且静音分割持续毫秒:默认140ms,想提高语言速度为1.2倍 调整多少合适

二次识别功能在v3.99中仍然存在,可能只是界面上不易发现,它通常在选择嵌入字幕类型后在“设置更多参数”中显示。静音分割持续毫秒默认值为500ms(优化建议可设为140ms),要减少句间停顿可适当降低该值(如改为200)。语速提升1.2倍应填 +20,但若依旧感觉慢,建议尝试 +50 并试听,避免失真。

  1. 找到“二次识别”

    • 在主界面“嵌入字幕”行,先选择“嵌入硬字幕”或“嵌入软字幕”(单字幕模式)。
    • 随后点击“设置更多参数...”,会看到“二次识别”复选框,勾选即可。
  2. 减少句间停顿

    • 菜单 → 工具 → 高级选项 → 语音识别参数 → 静音分割持续毫秒:默认500,改小(如200ms)可让字幕更紧凑,间隔缩短。
    • 同时勾选“移除配音前后静音缓冲”(高级选项 → 字幕配音调整),进一步裁剪配音头尾静音。
  3. 语速调整至1.2倍

    • 数值:配音语速填入 +20(即加快20%)。
    • 试听:选择角色后点击“试听配音”,若不满意可逐步增加(如+30、+50),但建议不超过+100以免严重失真。

如果仍觉得句间停顿过长,可在完成配音后手动编辑SRT字幕,微调各句的开始/结束时间。

作者大大 ,这个翻译后的音频 AI感很强,断句很突兀,哪里调整停顿之类的或者不停顿

AI感强和断句突兀通常是由语音识别时的字幕切分策略、配音语速/停顿处理不当导致的。可针对性地调整以下参数,让最终音频更加自然流畅。

  1. 减少句间停顿、使衔接更连贯

    • 移除配音前后静音缓冲:进入菜单 → 工具 → 高级选项 → 字幕配音调整,勾选 “移除配音前后静音缓冲”。这会裁剪掉每条配音开头和结尾的静音,使句子衔接更紧凑(但结尾可能稍显仓促,请根据效果取舍)。
    • 调整静音分割持续毫秒:进入菜单 → 工具 → 高级选项 → 语音识别参数,将 “静音分割持续毫秒” 适当降低(例如从默认的500ms改为200~300ms)。这会缩短识别阶段分隔字幕的静音判断时长,从而减少句子间的空白停顿。
    • 增加最长语音持续秒数:同上高级选项,将 “最长语音持续秒数” 调大(如从6秒调至10秒),减少不必要的强制断句,让每段语音更长,断句更少。
  2. 改善断句突兀感、降低AI机械味

    • 调整配音语速:你已使用+30,若仍感觉慢或停顿明显,可逐步提升至 +50 甚至更高(建议≤+100),并试听确认是否失真。
    • 二次识别让字幕更贴合配音:在主界面选择嵌入单字幕(硬字幕或软字幕),点击设置更多参数...,勾选 “二次识别”。该功能会在配音完成后再次对配音文件进行语音识别,生成时间轴精准匹配的新字幕,避免字幕与语音的错位感。
    • 优化语音识别断句:进入菜单 → 工具 → 高级选项 → 语音识别参数,尝试将 “最短语音持续毫秒” 设为3000(3秒),并勾选 “合并过短字幕到邻近”,避免过短的碎片化字幕导致频繁停顿。
  3. 若以上调整仍不能满足,可手动微调

    • 使用 “单视频交互模式”(仅处理单个视频时可用),在配音结束后会弹出编辑窗口,你可以试听每一句配音,并手动调整每句话的开始/结束时间,或重新生成某句的配音。
    • 若你是批量处理,可先在“批量语音转字幕”中生成完整SRT,用文本编辑器手动合并或拆分字幕行,之后再配音,也能大幅改善断句突兀问题。

通过以上组合调整,能够显著降低AI感,让停顿和断句更符合自然听觉习惯。

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource