#4206 克隆音色,怎么不支持上传本地音色,好像没有批量处理,右边字幕只能上传一个视频的吗?想节约时间,提前修改好字幕这样节省时间,但是没有批量处理的

74.48* Posted at: 15 hours ago 👁35

克隆音色,怎么不支持上传本地音色,好像没有批量处理,右边字幕只能上传一个视频的吗?想节约时间,提前修改好字幕这样节省时间,但是没有批量处理的

9 Replies

克隆音色功能支持上传本地音色,但操作方式不是直接在主界面“配音角色”处上传,而是通过参考音频文件实现。批量处理功能是存在的,但需要正确操作。

核心原因与解决方案:

  1. 克隆音色与参考音频

    • 原理:克隆音色是通过“参考音频”实现的。软件会将字幕对应的原始视频片段(时长3-10秒)作为参考音频,发送给支持克隆的TTS渠道(如F5-TTS、GPT-SoVITS、CosyVoice)。
    • 操作步骤

      • 在“配音渠道”中选择支持克隆的渠道(如“F5-TTS(本地)”)。
      • 在“配音角色”下拉菜单中选择 clone
      • 在“设置更多参数...”中,必须勾选“分离人声背景声”,否则克隆质量不佳或失败。
      • 同时,在“菜单 -> 工具 -> 高级选项 -> 语音识别参数”中,将“最短语音持续毫秒”设为 3000,“最长语音持续秒数”设为 10,以确保参考音频片段时长合适。
  2. 批量处理视频

    • 操作步骤

      • 在主界面左上角,不要勾选“文件夹”
      • 点击“选择音频或视频”按钮,在文件选择器中按住 Ctrl,可以同时选择多个视频文件。
      • 选中的所有视频会添加到任务列表中,软件会按顺序或并行(可在高级选项中设置)进行处理。
  3. 提前修改字幕以节省时间

    • 操作步骤

      • 使用软件左侧的“批量语音转字幕”功能,先为所有视频生成原始语言的字幕(SRT文件)。
      • 在外部用文本编辑器批量修改这些SRT文件。
      • 回到主翻译界面,在处理视频时,软件会检测到同目录下已存在的同名SRT文件,并自动使用该字幕,跳过语音识别步骤,从而节省时间。
      • 如果需要强制重新识别,请勾选主界面左上角的“清理已生成”。

注意事项

  • 如果批量处理大量视频(如30-50个)时卡住,请在“菜单 -> 工具 -> 高级选项 -> 通用设置”中,勾选“批量翻译时强制串行”,改为顺序执行。
  • 使用克隆音色时,确保原始视频人声清晰,背景噪音小。

请查阅相关文档:

使用克隆音色功能的时候,原视频的中带带有原片的声音会识别到吗?

使用克隆音色功能时,原视频中的背景音乐、环境音等非人声部分会被识别并可能影响克隆效果。为了获得最佳克隆质量,必须开启“人声分离”功能。

核心原因:克隆音色模型需要纯净的人声片段作为参考。如果参考音频中包含背景音乐或噪音,模型会将这些杂音也作为音色特征学习,导致克隆出的声音不纯或失败。

解决方案

  1. 开启人声分离:在翻译主界面,点击“设置更多参数...”,勾选“分离人声背景声”。这是使用克隆音色(clone角色)的必须步骤
  2. 重新嵌入背景声(可选):如果希望最终视频保留原背景音乐,可以在勾选“分离人声背景声”后,再勾选下方的“重新嵌入背景声”。软件会先分离人声用于克隆和识别,最后再将处理后的配音与原始背景音(或调整后的背景音)混合。
  3. 调整语音识别参数:为确保用于克隆的参考音频片段时长合适(3-10秒),请进入“菜单 -> 工具 -> 高级选项 -> 语音识别参数”进行设置:

    • 最短语音持续毫秒:设置为 3000(即3秒)。
    • 最长语音持续秒数:设置为 10(不超过10秒)。
    • 同时选中 Whisper预分割音频合并过短字幕到相邻,以确保生成的每条字幕时长落在3-10秒的理想区间内。

总结操作流程
选择支持克隆的配音渠道(如F5-TTS) -> 配音角色选择 clone -> 必须勾选“分离人声背景声” -> 按上述步骤调整高级语音识别参数 -> 开始翻译。

请查阅相关文档:

作者大大,能实现,翻译短视频的时候,短视频当中原片的声音,能跳过吗?只翻译解说声音

目前无法在翻译过程中智能跳过“原片声音”而只翻译“解说声音”。核心原因:软件的核心功能是识别视频中的全部语音并生成字幕,它无法自动区分视频中的“原片声音”(如电影对白、采访原声)和“解说声音”(如旁白、评论)。所有被识别为语音的片段都会被处理。可能的变通方案:方案一:手动编辑字幕(推荐)使用软件左侧的“批量语音转字幕”功能,先为短视频生成完整的原始语言字幕(SRT文件)。用文本编辑器(如记事本、VS Code)打开SRT文件,手动删除属于“原片声音”的字幕行,只保留“解说声音”部分。保存修改后的SRT文件。回到主翻译界面处理视频,软件会自动检测并使用你修改好的SRT文件,从而只翻译你保留的“解说声音”部分。方案二:使用说话人分离(效果有限)如果“原片声音”和“解说声音”是由不同的人发出的,可以尝试使用“说话人分离”功能。在翻译主界面,点击“设置更多参数...”,勾选“识别说话人”。在高级选项中(菜单-工具-高级选项-语音识别参数),可以尝试切换不同的“说话人分离模型”(如内置、阿里cam++)。识别后,软件会为不同说话人生成带标记的字幕(如 [说话人0])。在后续的“单视频交互模式”或字幕编辑环节,你可以选择只翻译特定说话人(如[说话人1])的字幕。注意:此功能准确度有限,尤其在声音相似或环境嘈杂时可能无法正确区分。方案三:预处理视频(复杂)使用专业音频编辑软件(如Audacity)或视频编辑软件,在翻译前手动将视频中“原片声音”对应的音频段静音或删除,只保留“解说声音”轨道。然后将处理后的视频导入pyVideoTrans进行翻译。总结:最可靠的方法是方案一,即先识别全部语音,再手动编辑字幕进行筛选。软件本身不具备自动识别“内容类型”(原片声 vs 解说)的能力。请查阅相关文档:说话人识别语音转录、语音识别、语音转文字、音视频转文字功能(用于先生成字幕)单视频交互模式(可在翻译过程中编辑字幕)

3.99版本自带Qwen3-TTS 本地内置 (离线版)包吗

v3.99版本自带Qwen3-TTS本地内置(离线版)模型包。核心原因:软件安装包体积限制与模型大小。Qwen3-TTS本地模型文件较大,如果内置在安装包中会导致软件体积过于庞大,不利于下载和分发。因此,软件采用了首次使用时在线下载的方式。解决方案:首次使用Qwen3-TTS(本地)渠道时自动下载:在“配音渠道”中选择“Qwen3-TTS(本地)”。首次选择时,软件会从模型托管网站(如Hugging Face)自动下载所需的模型文件。下载完成后,模型会保存在软件目录下的 models 文件夹中,后续使用即为离线状态。手动下载(如果自动下载失败):如果因网络问题自动下载失败,可以尝试手动下载模型。你需要根据软件日志或提示,找到对应的模型仓库(例如 Qwen/Qwen3-TTS-1.8BQwen/Qwen3-TTS-7B),从Hugging Face或国内镜像站下载所有模型文件(如 .bin, .json, .txt 等)。在软件根目录的 models 文件夹内,创建符合命名规则的文件夹(例如 models--Qwen--Qwen3-TTS-1.8B),并将下载的文件放入其中。重启软件后即可使用。注意事项:使用本地TTS模型需要一定的GPU显存或CPU内存,具体需求取决于模型大小。请确保你的设备有足够的资源。请查阅相关文档:Qwen-TTS 配音渠道使用(其中包含部署和使用说明)Cannot find an appropriate cached snapshot folder错误?一篇文章彻底搞定huggingface下载难题(关于手动下载模型的通用方法)

Qwen3-TTS 本地内置 (离线版)。如何导入自己克隆的音色?

Qwen3-TTS本地内置(离线版)目前不支持导入用户自己克隆的音色。核心原因:功能定位与实现方式不同。Qwen3-TTS(本地)渠道提供的是通识的、预训练好的多种音色角色供选择,它本身不是一个声音克隆(Zero-shot TTS)模型。它的“克隆”能力是内置在模型内部的,用户无法自定义添加新的音色。解决方案:如果你需要克隆特定的、自定义的音色,必须使用其他支持声音克隆的TTS渠道。操作步骤如下:选择支持克隆的渠道:在“配音渠道”中,选择支持零样本声音克隆的模型,例如:F5-TTS (本地)Index-TTS (本地)GPT-SoVITS (需额外部署API)CosyVoice (本地)OmniVoice-TTS (本地)准备参考音频并放置:这些支持克隆的渠道,其“克隆”功能是通过“参考音频”实现的。你需要将用于克隆的短音频文件(3-10秒,纯净人声)放置在软件根目录下的 f5-tts 文件夹内。在软件中配置:在“配音角色”下拉菜单中,选择 clone。软件会自动使用 f5-tts 文件夹内的参考音频,或使用当前字幕对应的原始视频人声片段(如果勾选了“分离人声背景声”)作为克隆音源。重要配置:使用克隆角色时,必须在“设置更多参数...”中勾选“分离人声背景声”。同时,在“菜单 -> 工具 -> 高级选项 -> 语音识别参数”中,将“最短语音持续毫秒”设为 3000,“最长语音持续秒数”设为 10,以确保参考片段时长合适。总结:Qwen3-TTS(本地)用于使用其内置的多种预置音色。自定义音色克隆需使用 F5-TTS、GPT-SoVITS、CosyVoice 等其他专门支持此功能的渠道。请查阅相关文档:如何使用原视频中音色配音使用F5-TTS配音在视频翻译软件中使用 CosyVoice3OmniVoice-TTS配音渠道

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource