#3120 videotrans.configure._except.StopRetry: 当前使用的是内置音色:Vivian,但Qwen-TTS端启动的模型不属于自定义音色模型，请检查启动Qwen-TTS的自定义音色模型CustomeVoice，或者

115.192* Posted at: 5 months ago

当前使用的是内置音色:Vivian,但Qwen-TTS端启动的模型不属于自定义音色模型，请检查启动Qwen-TTS的自定义音色模型CustomeVoice，或者请选择clone角色或使用参考音频进行配音:
Traceback (most recent call last):
File "videotrans\tts\_qwenttslocal.py", line 64, in _customevoice
File "gradio_client\client.py", line 496, in predict
File "gradio_client\client.py", line 542, in submit
File "gradio_client\client.py", line 876, in _infer_fn_index
ValueError: Cannot find a function with api_name: /run_instruct.

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
File "videotrans\util\ListenVoice.py", line 17, in run
File "videotrans\tts\__init__.py", line 347, in run
File "videotrans\tts\_base.py", line 134, in run
File "videotrans\tts\_qwenttslocal.py", line 43, in _exec
File "videotrans\tts\_base.py", line 203, in _local_mul_thread
File "videotrans\tts\_qwenttslocal.py", line 48, in _item_task
File "videotrans\tts\_qwenttslocal.py", line 75, in _customevoice
videotrans.configure._except.StopRetry: 当前使用的是内置音色:Vivian,但Qwen-TTS端启动的模型不属于自定义音色模型，请检查启动Qwen-TTS的自定义音色模型CustomeVoice，或者请选择clone角色或使用参考音频进行配音

=
system:Windows-10-10.0.19045-SP0
version:v3.96
frozen:True
language:zh
root_dir:S:/Program Files/PyVideotrans-v3.96-24

Floor #1 DeepSeek reply at 5 months ago

这是由于在 pyVideoTrans 中选择了 Qwen-TTS 的内置音色（如 Vivian），但本地启动的 Qwen-TTS 服务模型与所需模型不匹配导致的。

解决方案：

确认并启动正确的 Qwen-TTS 模型：Qwen-TTS 本地开源模型分为三类，pyVideoTrans 仅支持前两类：
- 语音克隆模型 (Base)：用于 clone 角色或基于参考音频的配音。模型名称如 Qwen3-TTS-12Hz-0.6B-Base 或 Qwen3-TTS-12Hz-1.7B-Base。
- 自定义音色模型 (CustomVoice)：用于使用模型内置的9个音色（如 Vivian、Serena 等）进行配音。模型名称如 Qwen3-TTS-12Hz-0.6B-CustomVoice 或 Qwen3-TTS-12Hz-1.7B-CustomVoice。
- 声音设计模型 (VoiceDesign)：pyVideoTrans 不支持。
根据你的配音需求启动对应模型：
- 如果你在 pyVideoTrans 中选择了 Vivian 等内置音色，必须启动“自定义音色模型 (CustomVoice)”。
- 如果你在 pyVideoTrans 中选择了 clone 角色或使用了参考音频，必须启动“语音克隆模型 (Base)”。
重启服务并测试：确保 Qwen-TTS 的 API 服务（如 http://127.0.0.1:7860）已使用正确模型启动。然后返回 pyVideoTrans 的“TTS设置”->“Qwen-tts(本地)”界面，删除“参考音频”文本框内容，选择内置音色（如 Vivian）进行测试。

总结：你遇到的错误 Cannot find a function with api_name: /run_instruct 表明 pyVideoTrans 正在尝试调用自定义音色模型的功能，但你启动的 Qwen-TTS 服务并非自定义音色模型。请检查并启动对应的 CustomVoice 模型。

请查阅相关文档：

Qwen-TTS 配音渠道使用

Floor #2 115.192* reply at 5 months ago

哪里能选择音色？

Floor #3 DeepSeek reply at 5 months ago

在 pyVideoTrans 中，Qwen-TTS 的音色选择取决于你启动的模型类型和配置方式。具体操作如下：

在 Qwen-TTS 本地服务端选择音色：
- 如果你启动的是 自定义音色模型 (CustomVoice)，其内置的9个音色（如 Vivian、Serena、Uncle_fu 等）是固定的，无需在服务端额外选择。
- 如果你启动的是 语音克隆模型 (Base)，音色由你提供的“参考音频”决定，用于克隆该音频的音色。
在 pyVideoTrans 软件内选择音色：
- 进入菜单栏的 “配音设置” 或 “TTS设置”。
- 在“配音渠道”中选择 “Qwen-tts(本地)”。
- 在出现的配置界面中，找到 “角色/音色” 下拉菜单。
  - 如果你启动了 自定义音色模型，这里会列出其内置的9个音色供你选择（例如 Vivian）。
  - 如果你启动了 语音克隆模型，这里应选择 clone 角色，并在下方的 “参考音频” 框中，选择或拖入一段3-10秒的音频文件作为音色克隆的样本。

关键点：软件中“角色/音色”下拉菜单里出现 Vivian 等内置音色，仅当你正确启动了 Qwen-TTS 自定义音色模型 (CustomVoice) 时才有效。如果菜单里没有这些音色，或者选择了却报错，就说明你启动的模型类型不对。

请查阅相关文档：

Qwen-TTS 配音渠道使用

Floor #4 115.192* reply at 5 months ago

我是3.96版本，看不到TTS设置或者配音设置这个选项

Floor #5 DeepSeek reply at 5 months ago

在 pyVideoTrans v3.96 版本中，配音渠道（TTS）的设置入口已调整。请按以下步骤操作：进入主界面后，在顶部菜单栏中找到并点击 “设置”。在弹出的下拉菜单中，选择 “配音设置”。这会打开配音渠道的配置窗口，你可以在其中选择 “Qwen-tts(本地)” 并进行相关配置。如果菜单栏中没有 “设置” 或 “配音设置”，请检查软件界面是否完整显示，或尝试重启软件。

Floor #6 115.192* reply at 5 months ago

我也没看到设置这个按钮

Floor #7 DeepSeek reply at 5 months ago

根据你提供的截图，你使用的是 pyVideoTrans v3.96 的 Windows 预打包版。设置入口已从顶部菜单栏移至主界面右侧的工具栏。请按以下步骤操作：在软件主界面的右侧，找到并点击齿轮图标（⚙️）的按钮。点击后，会弹出设置窗口。在设置窗口中，切换到 “配音” 选项卡。在 “配音” 选项卡中，你可以选择 “Qwen-tts(本地)” 作为配音渠道，并进行音色、参考音频等配置。

Floor #8 115.192* reply at 5 months ago

右侧也没看到齿轮图标

Floor #9 DeepSeek reply at 5 months ago

根据你提供的截图，你当前处于“视频翻译”功能的主界面。齿轮图标（⚙️）的“设置”按钮位于软件主界面的右上角，通常在“最小化”、“最大化/还原”、“关闭”窗口控制按钮的下方或左侧区域。请仔细查看软件窗口的右上角。如果仍然没有找到，可能是界面缩放或显示问题，可以尝试调整窗口大小或分辨率。如果确认右上角没有齿轮图标，请提供一张包含整个软件窗口（特别是右上角区域）的完整截图，以便进一步定位问题。

Floor #10 115.192* reply at 5 months ago

zuida
最大化也没有齿轮按钮

Floor #11 DeepSeek reply at 5 months ago

根据你提供的完整窗口截图，确认你的 pyVideoTrans v3.96 界面右上角确实缺少齿轮图标（⚙️）的设置按钮。这是一个非典型的界面显示问题。请尝试以下解决方案：重启软件：完全关闭 pyVideoTrans，然后重新启动 sp.exe。检查软件完整性：确认你是从官方渠道下载的完整版压缩包，并已正确解压到不含中文和空格的路径（例如 D:\pyVideoTrans）。如果下载的是补丁包，请重新下载完整版。使用备用入口：在软件主界面的左侧功能区域（如“视频翻译”、“语音识别”、“语音合成”等选项卡下方），通常会有“设置”或“配置”的文字链接，请检查并点击。如果以上方法均无效，这可能是该版本的一个界面 Bug。作为临时解决方案，你可以直接编辑配置文件来设置 Qwen-TTS：关闭软件。打开软件根目录下的 config.json 文件（可使用记事本编辑）。找到与 tts 或 qwen 相关的配置段落。手动添加或修改配置，将配音渠道设置为 qwenttslocal，并指定音色等参数（此操作需要参考配置文档，风险较高）。更稳妥的建议是：从官方论坛或发布页面重新下载 v3.96 的完整包，覆盖安装到新目录。或者，等待后续版本更新修复此界面问题。请查阅相关文档：免费下载pyVideoTrans视频翻译软件

Floor #12 115.192* reply at 5 months ago

我从你提供的地址重新下载解压，还是没有齿轮按钮

Floor #13 DeepSeek reply at 5 months ago

这是由于你下载的软件包可能不完整，或者解压路径存在问题，导致界面组件未能正确加载。请严格按以下步骤操作：下载完整包：确保从官方地址下载的是完整的 .7z 压缩包（文件名应类似 PyVideotrans-v3.96-24.7z），而不是补丁包。解压到正确路径：将压缩包解压到一个全新的、路径中绝对不含中文、空格和特殊符号的目录。例如：D:\pyvideotrans396。严禁解压到 C:\Program Files、桌面 或 下载 等系统目录。以管理员身份运行：右键点击解压目录中的 sp.exe，选择“以管理员身份运行”。如果上述步骤执行后问题依旧，则可能是该预打包版本存在界面 Bug。此时，你有两个选择：使用源码部署：按照知识库中“macOS / Linux 用户（源码部署）”的步骤，在 Windows 上使用 uv 进行源码部署，这通常能获得最完整的界面。回退到稳定版本：下载并安装 v3.95 等更早的稳定版本。请查阅相关文档：免费下载pyVideoTrans视频翻译软件 Linux 源码部署 (Windows 可参考其使用 uv 的部分)

Floor #14 61.228* reply at 5 months ago

有没有在线的TTS可以借用外部服务器算力来克隆语音

Floor #15 DeepSeek reply at 5 months ago

是的，pyVideoTrans 支持使用在线 TTS 服务来克隆语音，这些服务利用外部服务器算力。以下是推荐和可用的方案：F5-TTS API：这是目前最推荐的高质量、多语言声音克隆方案。你需要在其官方项目页面部署 F5-TTS 服务（通常需要一定的服务器资源），然后启动其 API 服务。在 pyVideoTrans 的配音设置中，选择“F5-TTS”渠道，并填写你部署好的 API 地址（如 http://127.0.0.1:7860）。支持零样本声音克隆，只需提供3-10秒的参考音频。CosyVoice API：阿里开源的高质量语音合成与克隆模型。你需要下载 CosyVoice 整合包并部署其 WebUI 和 API 服务。在 pyVideoTrans 的配音设置中，选择“CosyVoice”渠道，配置对应的 API 地址。同样支持声音克隆。GPT-SoVITS API：一个轻量化的高质量语音克隆与合成工具。你需要部署 GPT-SoVITS 项目并启动其 API 服务。在 pyVideoTrans 的配音设置中，选择“GPT-SoVITS”渠道，配置 API 地址。商业 TTS API（部分支持克隆）：一些商业 TTS 服务（如阿里云 Qwen-TTS、字节火山语音合成等）也提供音色定制或克隆功能，但通常需要付费并遵循其官方流程创建定制音色，然后在软件中通过 API Key 调用。关键步骤：部署上述任一服务的 API 服务器（可在本地或远程服务器）。在 pyVideoTrans 的配音设置中选择对应渠道。填写正确的 API 地址（和 Key，如果需要）。在“角色/音色”中选择 clone 或类似选项，并指定“参考音频”文件。这些方案都将计算负载转移到了你部署的 API 服务器上。请查阅相关文档：使用F5-TTS配音在视频翻译软件中使用 CosyVoice3 使用GPT-SoVITS配音

Floor #16 61.228* reply at 5 months ago

多角色自动配音使用在线TTS最好的办法是什么

Floor #17 DeepSeek reply at 5 months ago

使用在线 TTS 实现多角色自动配音，最佳方案是结合 说话人分离 与 支持多角色/音色映射的 TTS 渠道。以下是具体步骤和推荐方案：核心工作流：语音识别时启用说话人分离：在“视频翻译”或“语音识别”功能的“高级选项”中，开启“说话人识别”。选择效果较好的模型（如 Pyannote 3.1 或阿里 CAM++）。设置视频中预计的说话人数。识别完成后，软件会为字幕分配不同的说话人标签（如 spk_0, spk_1）。配置 TTS 渠道以映射不同说话人：在“配音设置”中，选择支持多角色配置的在线 TTS 渠道。在“多角色配音”设置区域，为每个检测到的说话人标签（spk_0, spk_1...）指定一个目标 TTS 角色/音色。推荐的最佳在线 TTS 方案：方案一：F5-TTS API（首选）优势：完全免费、开源，支持高质量零样本声音克隆和多语言。部署：在服务器上部署 F5-TTS 项目并启动 API 服务。配置：在 pyVideoTrans 中选择“F5-TTS”渠道，填写 API 地址。在“多角色配音”设置中，为每个说话人指定一个 F5-TTS 中的角色名，或上传不同的“参考音频”以实现每个角色使用独特克隆音色。方案二：CosyVoice API优势：阿里开源，中文效果优秀，支持克隆。部署：部署 CosyVoice WebUI 和 API 服务。配置：在软件中选择“CosyVoice”渠道，填写 API 地址。同样可以在“多角色配音”中为不同说话人分配不同音色或参考音频。方案三：商业 TTS API（如阿里云 Qwen-TTS、字节火山语音合成）优势：稳定性高，音质有保障。配置：在对应云平台创建多个不同的“音色”或“发音人”。在 pyVideoTrans 的“多角色配音”设置中，为每个说话人指定一个你在云平台上创建的音色 ID。操作步骤概要：在“视频翻译”界面，上传视频，在“高级选项”中开启并配置说话人分离。完成语音识别，确认字幕已正确分配说话人标签。进入“配音设置”，选择上述任一在线 TTS 渠道并完成基础配置（API地址、Key等）。找到“多角色配音”区域（通常在设置下方），点击“设置”或“配置多角色”。在弹出的映射表中，为 spk_0, spk_1 等分别选择或指定一个 TTS 角色/音色/参考音频。开始翻译任务，软件会自动为不同说话人的字幕调用指定的音色进行配音。请查阅相关文档：说话人识别多角色配音使用F5-TTS配音在视频翻译软件中使用 CosyVoice3

#3120 videotrans.configure._except.StopRetry: 当前使用的是内置音色:Vivian,但Qwen-TTS端启动的模型不属于自定义音色模型，请检查启动Qwen-TTS的自定义音色模型CustomeVoice，或者

17 Replies

请查阅相关文档：

请查阅相关文档：

Post Your Reply

Related resource