#3120 videotrans.configure._except.StopRetry: 当前使用的是内置音色:Vivian,但Qwen-TTS端启动的模型不属于自定义音色模型,请检查启动Qwen-TTS的自定义音色模型CustomeVoice,或者

115.192* Posted at: 17 hours ago 👁34

当前使用的是内置音色:Vivian,但Qwen-TTS端启动的模型不属于自定义音色模型,请检查启动Qwen-TTS的自定义音色模型CustomeVoice,或者请选择clone角色或使用参考音频进行配音:
Traceback (most recent call last):
File "videotrans\tts\_qwenttslocal.py", line 64, in _customevoice
File "gradio_client\client.py", line 496, in predict
File "gradio_client\client.py", line 542, in submit
File "gradio_client\client.py", line 876, in _infer_fn_index
ValueError: Cannot find a function with api_name: /run_instruct.

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
File "videotrans\util\ListenVoice.py", line 17, in run
File "videotrans\tts\__init__.py", line 347, in run
File "videotrans\tts\_base.py", line 134, in run
File "videotrans\tts\_qwenttslocal.py", line 43, in _exec
File "videotrans\tts\_base.py", line 203, in _local_mul_thread
File "videotrans\tts\_qwenttslocal.py", line 48, in _item_task
File "videotrans\tts\_qwenttslocal.py", line 75, in _customevoice
videotrans.configure._except.StopRetry: 当前使用的是内置音色:Vivian,但Qwen-TTS端启动的模型不属于自定义音色模型,请检查启动Qwen-TTS的自定义音色模型CustomeVoice,或者请选择clone角色或使用参考音频进行配音


=
system:Windows-10-10.0.19045-SP0
version:v3.96
frozen:True
language:zh
root_dir:S:/Program Files/PyVideotrans-v3.96-24

17 Replies

这是由于在 pyVideoTrans 中选择了 Qwen-TTS 的内置音色(如 Vivian),但本地启动的 Qwen-TTS 服务模型与所需模型不匹配导致的。

解决方案:

  1. 确认并启动正确的 Qwen-TTS 模型:Qwen-TTS 本地开源模型分为三类,pyVideoTrans 仅支持前两类:

    • 语音克隆模型 (Base):用于 clone 角色或基于参考音频的配音。模型名称如 Qwen3-TTS-12Hz-0.6B-BaseQwen3-TTS-12Hz-1.7B-Base
    • 自定义音色模型 (CustomVoice):用于使用模型内置的9个音色(如 Vivian、Serena 等)进行配音。模型名称如 Qwen3-TTS-12Hz-0.6B-CustomVoiceQwen3-TTS-12Hz-1.7B-CustomVoice
    • 声音设计模型 (VoiceDesign)pyVideoTrans 不支持
  2. 根据你的配音需求启动对应模型

    • 如果你在 pyVideoTrans 中选择了 Vivian 等内置音色,必须启动“自定义音色模型 (CustomVoice)”。
    • 如果你在 pyVideoTrans 中选择了 clone 角色或使用了参考音频,必须启动“语音克隆模型 (Base)”。
  3. 重启服务并测试:确保 Qwen-TTS 的 API 服务(如 http://127.0.0.1:7860)已使用正确模型启动。然后返回 pyVideoTrans 的“TTS设置”->“Qwen-tts(本地)”界面,删除“参考音频”文本框内容,选择内置音色(如 Vivian)进行测试。

总结:你遇到的错误 Cannot find a function with api_name: /run_instruct 表明 pyVideoTrans 正在尝试调用自定义音色模型的功能,但你启动的 Qwen-TTS 服务并非自定义音色模型。请检查并启动对应的 CustomVoice 模型。

请查阅相关文档:

哪里能选择音色?

在 pyVideoTrans 中,Qwen-TTS 的音色选择取决于你启动的模型类型和配置方式。具体操作如下:

  1. 在 Qwen-TTS 本地服务端选择音色

    • 如果你启动的是 自定义音色模型 (CustomVoice),其内置的9个音色(如 Vivian、Serena、Uncle_fu 等)是固定的,无需在服务端额外选择。
    • 如果你启动的是 语音克隆模型 (Base),音色由你提供的“参考音频”决定,用于克隆该音频的音色。
  2. 在 pyVideoTrans 软件内选择音色

    • 进入菜单栏的 “配音设置”“TTS设置”
    • 在“配音渠道”中选择 “Qwen-tts(本地)”
    • 在出现的配置界面中,找到 “角色/音色” 下拉菜单。

      • 如果你启动了 自定义音色模型,这里会列出其内置的9个音色供你选择(例如 Vivian)。
      • 如果你启动了 语音克隆模型,这里应选择 clone 角色,并在下方的 “参考音频” 框中,选择或拖入一段3-10秒的音频文件作为音色克隆的样本。

关键点:软件中“角色/音色”下拉菜单里出现 Vivian 等内置音色,仅当你正确启动了 Qwen-TTS 自定义音色模型 (CustomVoice) 时才有效。如果菜单里没有这些音色,或者选择了却报错,就说明你启动的模型类型不对。

请查阅相关文档:

我是3.96版本,看不到TTS设置或者配音设置这个选项

在 pyVideoTrans v3.96 版本中,配音渠道(TTS)的设置入口已调整。请按以下步骤操作:进入主界面后,在顶部菜单栏中找到并点击 “设置”。在弹出的下拉菜单中,选择 “配音设置”。这会打开配音渠道的配置窗口,你可以在其中选择 “Qwen-tts(本地)” 并进行相关配置。如果菜单栏中没有 “设置” 或 “配音设置”,请检查软件界面是否完整显示,或尝试重启软件。

image
image
我也没看到设置这个按钮

根据你提供的截图,你使用的是 pyVideoTrans v3.96 的 Windows 预打包版。设置入口已从顶部菜单栏移至主界面右侧的工具栏。请按以下步骤操作:在软件主界面的右侧,找到并点击齿轮图标(⚙️)的按钮。点击后,会弹出设置窗口。在设置窗口中,切换到 “配音” 选项卡。在 “配音” 选项卡中,你可以选择 “Qwen-tts(本地)” 作为配音渠道,并进行音色、参考音频等配置。

image
右侧也没看到齿轮图标

根据你提供的截图,你当前处于“视频翻译”功能的主界面。齿轮图标(⚙️)的“设置”按钮位于软件主界面的右上角,通常在“最小化”、“最大化/还原”、“关闭”窗口控制按钮的下方或左侧区域。请仔细查看软件窗口的右上角。如果仍然没有找到,可能是界面缩放或显示问题,可以尝试调整窗口大小或分辨率。如果确认右上角没有齿轮图标,请提供一张包含整个软件窗口(特别是右上角区域)的完整截图,以便进一步定位问题。

zuidaimage
最大化也没有齿轮按钮

根据你提供的完整窗口截图,确认你的 pyVideoTrans v3.96 界面右上角确实缺少齿轮图标(⚙️)的设置按钮。这是一个非典型的界面显示问题。请尝试以下解决方案:重启软件:完全关闭 pyVideoTrans,然后重新启动 sp.exe。检查软件完整性:确认你是从官方渠道下载的完整版压缩包,并已正确解压到不含中文和空格的路径(例如 D:\pyVideoTrans)。如果下载的是补丁包,请重新下载完整版。使用备用入口:在软件主界面的左侧功能区域(如“视频翻译”、“语音识别”、“语音合成”等选项卡下方),通常会有“设置”或“配置”的文字链接,请检查并点击。如果以上方法均无效,这可能是该版本的一个界面 Bug。作为临时解决方案,你可以直接编辑配置文件来设置 Qwen-TTS:关闭软件。打开软件根目录下的 config.json 文件(可使用记事本编辑)。找到与 ttsqwen 相关的配置段落。手动添加或修改配置,将配音渠道设置为 qwenttslocal,并指定音色等参数(此操作需要参考配置文档,风险较高)。更稳妥的建议是:从官方论坛或发布页面重新下载 v3.96 的完整包,覆盖安装到新目录。或者,等待后续版本更新修复此界面问题。请查阅相关文档:免费下载pyVideoTrans视频翻译软件

我从你提供的地址重新下载解压,还是没有齿轮按钮

这是由于你下载的软件包可能不完整,或者解压路径存在问题,导致界面组件未能正确加载。请严格按以下步骤操作:下载完整包:确保从官方地址下载的是完整的 .7z 压缩包(文件名应类似 PyVideotrans-v3.96-24.7z),而不是补丁包。解压到正确路径:将压缩包解压到一个全新的、路径中绝对不含中文、空格和特殊符号的目录。例如:D:\pyvideotrans396严禁解压到 C:\Program Files桌面下载 等系统目录。以管理员身份运行:右键点击解压目录中的 sp.exe,选择“以管理员身份运行”。如果上述步骤执行后问题依旧,则可能是该预打包版本存在界面 Bug。此时,你有两个选择:使用源码部署:按照知识库中“macOS / Linux 用户(源码部署)”的步骤,在 Windows 上使用 uv 进行源码部署,这通常能获得最完整的界面。回退到稳定版本:下载并安装 v3.95 等更早的稳定版本。请查阅相关文档:免费下载pyVideoTrans视频翻译软件 Linux 源码部署 (Windows 可参考其使用 uv 的部分)

有没有在线的TTS可以借用外部服务器算力来克隆语音

是的,pyVideoTrans 支持使用在线 TTS 服务来克隆语音,这些服务利用外部服务器算力。以下是推荐和可用的方案:F5-TTS API:这是目前最推荐的高质量、多语言声音克隆方案。你需要在其官方项目页面部署 F5-TTS 服务(通常需要一定的服务器资源),然后启动其 API 服务。在 pyVideoTrans 的配音设置中,选择“F5-TTS”渠道,并填写你部署好的 API 地址(如 http://127.0.0.1:7860)。支持零样本声音克隆,只需提供3-10秒的参考音频。CosyVoice API:阿里开源的高质量语音合成与克隆模型。你需要下载 CosyVoice 整合包并部署其 WebUI 和 API 服务。在 pyVideoTrans 的配音设置中,选择“CosyVoice”渠道,配置对应的 API 地址。同样支持声音克隆。GPT-SoVITS API:一个轻量化的高质量语音克隆与合成工具。你需要部署 GPT-SoVITS 项目并启动其 API 服务。在 pyVideoTrans 的配音设置中,选择“GPT-SoVITS”渠道,配置 API 地址。商业 TTS API(部分支持克隆):一些商业 TTS 服务(如 阿里云 Qwen-TTS、字节火山语音合成 等)也提供音色定制或克隆功能,但通常需要付费并遵循其官方流程创建定制音色,然后在软件中通过 API Key 调用。关键步骤:部署上述任一服务的 API 服务器(可在本地或远程服务器)。在 pyVideoTrans 的配音设置中选择对应渠道。填写正确的 API 地址(和 Key,如果需要)。在“角色/音色”中选择 clone 或类似选项,并指定“参考音频”文件。这些方案都将计算负载转移到了你部署的 API 服务器上。请查阅相关文档:使用F5-TTS配音 在视频翻译软件中使用 CosyVoice3 使用GPT-SoVITS配音

多角色自动配音使用在线TTS最好的办法是什么

使用在线 TTS 实现多角色自动配音,最佳方案是结合 说话人分离支持多角色/音色映射的 TTS 渠道。以下是具体步骤和推荐方案:核心工作流:语音识别时启用说话人分离:在“视频翻译”或“语音识别”功能的“高级选项”中,开启“说话人识别”。选择效果较好的模型(如 Pyannote 3.1 或 阿里 CAM++)。设置视频中预计的说话人数。识别完成后,软件会为字幕分配不同的说话人标签(如 spk_0, spk_1)。配置 TTS 渠道以映射不同说话人:在“配音设置”中,选择支持多角色配置的在线 TTS 渠道。在“多角色配音”设置区域,为每个检测到的说话人标签(spk_0, spk_1...)指定一个目标 TTS 角色/音色。推荐的最佳在线 TTS 方案:方案一:F5-TTS API(首选)优势:完全免费、开源,支持高质量零样本声音克隆和多语言。部署:在服务器上部署 F5-TTS 项目并启动 API 服务。配置:在 pyVideoTrans 中选择“F5-TTS”渠道,填写 API 地址。在“多角色配音”设置中,为每个说话人指定一个 F5-TTS 中的角色名,或上传不同的“参考音频”以实现每个角色使用独特克隆音色。方案二:CosyVoice API优势:阿里开源,中文效果优秀,支持克隆。部署:部署 CosyVoice WebUI 和 API 服务。配置:在软件中选择“CosyVoice”渠道,填写 API 地址。同样可以在“多角色配音”中为不同说话人分配不同音色或参考音频。方案三:商业 TTS API(如 阿里云 Qwen-TTS、字节火山语音合成)优势:稳定性高,音质有保障。配置:在对应云平台创建多个不同的“音色”或“发音人”。在 pyVideoTrans 的“多角色配音”设置中,为每个说话人指定一个你在云平台上创建的音色 ID。操作步骤概要:在“视频翻译”界面,上传视频,在“高级选项”中开启并配置说话人分离。完成语音识别,确认字幕已正确分配说话人标签。进入“配音设置”,选择上述任一在线 TTS 渠道并完成基础配置(API地址、Key等)。找到“多角色配音”区域(通常在设置下方),点击“设置”或“配置多角色”。在弹出的映射表中,为 spk_0, spk_1 等分别选择或指定一个 TTS 角色/音色/参考音频。开始翻译任务,软件会自动为不同说话人的字幕调用指定的音色进行配音。请查阅相关文档:说话人识别 多角色配音 使用F5-TTS配音 在视频翻译软件中使用 CosyVoice3

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource