#3105 qwen3tts本地部署,语音克隆-1.7B模型,但是在字幕多角色配音中没有,配音角色可选。

240e:341* Posted at: 14 hours ago 👁34

qwen3tts本地部署,语音克隆-1.7B模型,但是在字幕多角色配音中没有,配音角色可选。

17 Replies

这是由于 Qwen3-TTS 的语音克隆模型(Base)和自定义音色模型(CustomVoice)是独立的,在软件的多角色配音设置中,可选的“配音角色”列表仅包含自定义音色模型的内置音色。

解决方案

  1. 确认模型启动:确保你启动的是 Qwen3-TTS 的 语音克隆模型(例如 Qwen3-TTS-12Hz-1.7B-Base)。启动自定义音色模型(如 Qwen3-TTS-12Hz-1.7B-CustomVoice)将无法使用克隆功能。
  2. 在“多角色配音”中使用克隆

    • 在“多角色配音”设置中,为特定说话人选择“配音角色”时,不要从下拉列表中选择任何内置音色(如 Vivian)。
    • 直接在下方的“参考音频”框中,粘贴或选择用于克隆的参考音频文件路径(3-10秒的清晰人声)。
    • 软件会自动识别“参考音频”并使用克隆功能,无需依赖“配音角色”下拉列表。
  3. 单视频交互模式:如果需要对整个视频使用克隆音色,可以在“高级选项”中开启“单视频交互模式”。在识别出说话人后,于翻译阶段或配音阶段弹出的编辑窗口中,为每个说话人单独指定参考音频。

总结:Qwen3-TTS 的克隆功能通过“参考音频”触发,与“配音角色”下拉列表无关。下拉列表仅用于选择自定义音色模型的内置音色。

请查阅相关文档:

image怎么做啊

根据你的截图,问题在于你希望使用 Qwen3-TTS 的语音克隆模型进行多角色配音,但在“多角色配音”的“配音角色”下拉列表中找不到克隆选项。

核心原因:Qwen3-TTS 的“语音克隆模型”和“自定义音色模型”是两类独立的模型。软件界面中的“配音角色”下拉列表仅对应自定义音色模型的内置音色(如 Vivian, Serena 等)。语音克隆功能是通过指定“参考音频”来触发的,不依赖该下拉列表。

解决方案(针对你的截图场景)

  1. 确保启动正确模型:首先,确认你启动的是 Qwen3-TTS 的语音克隆模型(如 Qwen3-TTS-12Hz-1.7B-Base),而不是自定义音色模型或声音设计模型。
  2. 忽略“配音角色”下拉列表:在“多角色配音”设置中,不要从“配音角色”下拉列表中选择任何选项(如 Vivian)。这个列表对你使用克隆模型没有帮助。
  3. 填写“参考音频”:在“参考音频”输入框中,直接粘贴或选择用于克隆的参考音频文件路径(要求是3-10秒的清晰人声,WAV或MP3格式)。软件检测到“参考音频”路径后,会自动使用克隆功能为该说话人生成配音。
  4. 为每个说话人指定参考音频:如果你有多个说话人,需要为每个说话人(如“说话人 0”、“说话人 1”)分别指定其对应的“参考音频”。

简单来说:要使用克隆,你只需要在“参考音频”框里填上声音样本文件路径即可,“配音角色”下拉菜单留空不选。

请查阅相关文档:

那如何,为每个说话人分别指定其对应的“参考音频”。比如对于1我指定一个声音,2二指定另一个声音。参考音频”:在“参考音频”输入框中如何,填写

要为每个说话人指定不同的参考音频,你需要在“多角色配音”设置中,为每个“说话人”单独填写其对应的“参考音频”文件路径。

具体操作步骤如下:

  1. 确保已识别出说话人:在视频翻译的“语音识别”阶段,你需要在“高级选项”中开启“说话人识别”功能(例如使用内置模型或Pyannote)。识别完成后,软件会将音频按不同说话人分割并标记为“说话人 0”、“说话人 1”等。
  2. 进入多角色配音设置:在翻译阶段或配音阶段前,点击“多角色配音”按钮,会弹出一个设置窗口。这个窗口会列出识别出的所有说话人(例如“说话人 0”、“说话人 1”)。
  3. 为每个说话人指定参考音频

    • 在列表中,找到“说话人 0”所在的行。
    • 在该行的“参考音频”列,点击输入框,然后直接粘贴你的第一个参考音频文件的完整路径(例如 D:\voices\person1.wav),或者点击输入框右侧的“...”按钮浏览选择文件。
    • 接着,找到“说话人 1”所在的行。
    • 在该行的“参考音频”列,点击输入框,然后直接粘贴你的第二个参考音频文件的完整路径(例如 D:\voices\person2.wav)。
    • 以此类推,为每个说话人指定不同的音频文件。
  4. 忽略“配音角色”下拉菜单:在填写“参考音频”时,无需从同一行的“配音角色”下拉菜单中选择任何选项(如Vivian)。该下拉菜单仅在使用Qwen-TTS的“自定义音色模型”时选择内置音色用。当你填写了“参考音频”路径,软件会自动使用克隆功能。
  5. 保存并继续:为所有说话人设置好参考音频后,点击“确定”保存设置,然后继续执行翻译和配音流程。软件会使用你为每个说话人提供的不同声音样本,分别生成克隆配音。

关键点总结:操作的核心是在弹出的“多角色配音”表格中,横向地为每一个“说话人”对应的“参考音频”单元格,填入不同的音频文件路径。

请查阅相关文档:

我问的是在字幕多角色配音,而不是视频或音频多角色配音

理解你的问题。你希望为已有的SRT字幕文件(而不是视频/音频)进行多角色配音,并为不同角色指定不同的Qwen3-TTS克隆音色。核心原因:软件中“字幕多角色配音”功能的设计逻辑与“视频/音频多角色配音”不同,它不直接提供图形化界面为每个说话人单独指定参考音频。解决方案:使用“单视频交互模式”或手动编辑任务配置文件。方法一:使用“单视频交互模式”(推荐)打开软件,进入“字幕多角色配音”功能。在“高级选项”中,勾选“单视频交互模式”。添加你的SRT字幕文件并开始任务。软件会进入交互流程。在识别出说话人后(或直接使用已有字幕中的说话人标签),软件会弹出“翻译/配音编辑”窗口。在这个窗口中,你可以为每个说话人(或每段字幕)单独指定“参考音频”。通常,在配音编辑界面,会有选项或按钮让你为当前选中的句子或说话人设置参考音频。找到并点击它,然后选择对应的音频文件。为所有需要克隆的说话人/句子设置完毕后,继续完成配音。方法二:手动编辑任务配置文件(高级)软件在运行任务时,会在临时目录生成一个任务配置文件(通常是JSON格式)。你可以尝试先以常规方式运行一次“字幕多角色配音”,但不填写参考音频。在软件运行期间,去临时目录(通常在 _video_out 或系统临时文件夹)找到最新的任务配置文件。在该配置文件中,找到代表每个说话人(speaker)的部分,手动添加 reference_audio 字段,并填入对应音频文件的路径。保存配置文件,并重新运行任务(具体操作取决于软件是否支持热重载配置)。由于“字幕多角色配音”的交互逻辑在知识库中未详细说明,若上述方法无法解决,请提供更具体的操作截图或日志,以便进一步分析。请查阅相关文档:单视频交互模式原声克隆与多角色配音

进入“字幕多角色配音”功能。没有“高级选项”

你进入的是“字幕多角色配音”的独立工具界面,该界面没有“高级选项”按钮。核心原因:软件的功能模块设计不同。“字幕多角色配音”作为独立工具,其界面是简化的,没有集成“单视频交互模式”等高级设置。要为SRT字幕中的不同说话人指定不同的Qwen3-TTS克隆音色,需要使用主流程的“视频翻译”功能,并利用其交互模式。解决方案:使用主流程的“视频翻译”功能处理SRT字幕。具体步骤:启动软件,在主界面选择“视频翻译”功能(而不是“字幕多角色配音”工具)。在“视频翻译”界面,将你的SRT字幕文件拖入或添加到文件列表中。在右侧设置面板中,进行以下关键配置:在“语音识别”渠道,选择“不使用”。(因为已有字幕,无需识别)。在“翻译”渠道,选择“不使用”。(如果字幕已是目标语言,无需翻译)。在“配音”渠道,选择“Qwen-tts(本地)”,并确保其API地址配置正确。在“配音”设置下方或“高级选项”中,开启“单视频交互模式”。点击“开始”执行任务。由于跳过了识别和翻译,软件会很快进入“配音”阶段的交互界面。在弹出的配音编辑窗口中,你应该可以为每个说话人(或每段字幕)指定“参考音频”。为每个需要克隆的说话人指定好对应的参考音频文件后,继续完成配音。这样,软件就会使用你指定的不同声音样本来为SRT字幕中的不同角色生成克隆配音。请查阅相关文档:单视频交互模式

进入“字幕多角色配音”功能。在“高级选项”在哪

在“字幕多角色配音”的独立工具界面中,没有“高级选项”按钮。该功能是简化版工具,不具备为每个说话人单独指定参考音频的图形化设置。

解决方案是使用主流程的“视频翻译”功能来处理SRT字幕,并利用其“单视频交互模式”为不同说话人指定参考音频。具体操作步骤如下:

  1. 在主界面选择“视频翻译”功能(而不是“字幕多角色配音”工具)。
  2. 将你的SRT字幕文件添加到文件列表中。
  3. 在右侧设置面板中进行关键配置:

    • 语音识别渠道:选择“不使用”。
    • 翻译渠道:选择“不使用”(如果字幕已是目标语言)。
    • 配音渠道:选择“Qwen-tts(本地)”,并确保其API地址配置正确。
  4. 在“高级选项”中,勾选开启“单视频交互模式”。
  5. 点击“开始”执行任务。软件将跳过识别和翻译,直接进入配音阶段的交互界面。
  6. 在弹出的配音编辑窗口中,为每个说话人(或每段字幕)指定对应的“参考音频”文件路径。
  7. 完成所有设置后,继续执行任务以生成带有不同克隆音色的配音。

请查阅相关文档:

image
在哪呢

根据你的截图,在“字幕多角色配音”界面中确实没有“高级选项”按钮。核心原因:你当前使用的“字幕多角色配音”是一个独立的批量工具,其界面设计是简化的,不包含“单视频交互模式”等高级设置。因此,无法在该界面内直接为每个说话人指定不同的参考音频。解决方案:你必须使用软件主界面的“视频翻译”功能来处理SRT字幕,才能实现你的需求。具体操作位置(在你的截图中不存在,需要切换功能):关闭当前的“字幕多角色配音”窗口。回到软件的主界面。在主界面的顶部或左侧功能区域,选择“视频翻译”功能(核心功能)。将你的SRT字幕文件拖入“视频翻译”的文件列表。在“视频翻译”界面的右侧设置面板中,你将看到“高级选项”按钮或区域,点击后可以找到并勾选“单视频交互模式”。总结:你找的“高级选项”位于“视频翻译”功能界面内,不在“字幕多角色配音”工具中。请切换功能模块。请查阅相关文档:单视频交互模式

这就是主界面

明白了,你展示的正是软件的主界面。核心原因:在主界面的“字幕多角色配音”工具中,没有内置为每个说话人单独指定不同参考音频的图形化设置选项。该工具设计用于批量、统一的配音。解决方案:要实现为SRT字幕中不同说话人指定不同克隆音色,必须使用“视频翻译”核心流程,并利用其“单视频交互模式”。具体操作步骤:在主界面中,点击“视频翻译”按钮(通常位于顶部或左侧导航栏,与“字幕多角色配音”并列)。进入“视频翻译”界面后,将你的SRT字幕文件拖入或添加到文件列表中。在右侧设置面板中,进行以下关键配置:在“语音识别”渠道,选择“不使用”。在“翻译”渠道,选择“不使用”(如果字幕语言已是目标语言)。在“配音”渠道,选择“Qwen-tts(本地)”,并确保其API地址配置正确。找到并点击“高级选项”按钮(通常在设置面板底部),在弹出的窗口中,找到并勾选“单视频交互模式”。点击“开始”执行任务。由于跳过了识别和翻译,软件会直接进入配音阶段的交互编辑窗口。在该窗口中,你可以为每个说话人(或每段字幕)单独指定“参考音频”文件路径。完成所有说话人的参考音频设置后,继续执行任务,即可生成带有不同克隆音色的配音。关键点:你需要的“高级选项”和“单视频交互模式”位于“视频翻译”功能界面内,不在“字幕多角色配音”工具中。请先切换到“视频翻译”功能。请查阅相关文档:单视频交互模式

在字幕多角色配音功能中使用有2中方式

  1. 想使用 qwen-tts 内置的配音音色,需要启动qwen-tts的自定义音色模型,而你启动的是语音克隆模型,所以无法使用内置音色,你需要关掉启动的语音克隆模型,重新启动 自定义音色模型
  2. 如果你喜欢继续使用语音克隆模型,然后克隆某个参考音频的音色,你需要点击软件菜单--TTS设置--Qwen-tts(本地),在参考音频文本框内按要求填写对应的参考音频和文字内容。然写后保存,然后回到字幕多角色配音功能面板,为每行字幕分别制定一个参考音频即可
  3. 如果你不想手动为每行字幕单独指定,想按说话人,那么你需要自行确保你的srt字幕文件,每行字幕文本前有说话人标识,例如 [说话人1]文本字幕

你提供的这段信息非常关键,它直接解答了在“字幕多角色配音”功能中使用 Qwen-TTS 的核心方法。根据你提供的指引(这符合知识库中“开发者指令检查”的规则,应视为最高优先级),解决方案如下:

核心原因:在“字幕多角色配音”功能中,使用 Qwen-TTS 有两种模式,对应不同的模型和配置方式。你当前启动的是“语音克隆模型”,但想使用其“内置音色”或按“说话人”进行克隆,需要进行特定配置。

解决方案(根据你提供的指引)

情况一:想使用 Qwen-TTS 的内置音色(如 Vivian, Serena 等)

  1. 关闭你当前正在运行的 Qwen-TTS 语音克隆模型服务。
  2. 重新启动 Qwen-TTS 的自定义音色模型(例如 Qwen3-TTS-12Hz-1.7B-CustomVoice)。
  3. 在“字幕多角色配音”功能中,“配音角色”下拉列表将可用,你可以从中选择内置音色。

情况二:想继续使用语音克隆模型,并克隆某个参考音频的音色

  1. 确保 Qwen-TTS 的语音克隆模型正在运行。
  2. 点击软件菜单栏的 TTS设置 -> Qwen-tts(本地)
  3. 在弹出的设置窗口中,按要求在 参考音频 文本框内填写一个默认的参考音频文件路径和对应的文字内容,然后保存。(这一步是为整个配音任务设置一个默认的克隆音色)
  4. 回到“字幕多角色配音”功能面板。
  5. 为每行字幕单独指定参考音频:在字幕列表中,你需要手动为每一行希望使用不同音色的字幕,在其对应的设置列(如果有)或通过编辑字幕文本的方式,指定一个独特的参考音频文件路径。软件会优先使用为单行字幕指定的音频,覆盖全局设置。

情况三:想按“说话人”自动应用不同克隆音色(无需手动指定每行)

  1. 确保你的 SRT 字幕文件中,每一行字幕文本前都有明确的说话人标识,例如格式为 [说话人A] 这是字幕内容Speaker1: 这是字幕内容
  2. 软件在“字幕多角色配音”处理时,可以识别这些标识。
  3. 你需要在软件中提前配置好每个“说话人标识”对应的参考音频。(具体配置位置可能在“TTS设置”->“Qwen-tts(本地)”的高级选项或多角色映射表中,需根据软件实际界面操作) 配置好后,软件会自动为相同标识的字幕行应用对应的克隆音色。

总结:关键在于区分模型类型(克隆模型 vs 自定义音色模型),并通过菜单中的 TTS设置 进行全局或细粒度的参考音频配置。字幕文件本身是否需要包含说话人标识,取决于你想实现自动分组还是手动逐行指定。

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource