#2035 v3.90版无法切换到index-tts

223.79* Posted at: 2 months ago 👁218

image
v3.90版无法切换到index-tts等模式,以切换到index-tts就切换到这个对话框

14 Replies

根据截图显示,您遇到了一个已知的界面显示问题。当尝试切换到“index-tts”等模式时,软件界面卡在了一个错误的对话框状态。

核心解决方法:
请直接关闭当前卡住的软件窗口,然后以管理员身份重新运行 sp.exe 主程序。这通常可以解决因界面资源加载或权限问题导致的显示异常。

如果问题依旧,请按以下步骤操作:

  1. 确保您的软件解压路径不包含任何中文字符或特殊符号(例如 D:\videotrans)。
  2. 检查软件目录下是否存在 config.json 文件,尝试将其删除或重命名(软件重启后会生成新的默认配置)。
  3. 如果以上方法均无效,请从官网重新下载完整的 v3.90 预打包版,并在一个全新的纯英文路径下解压运行。

这个问题通常与界面状态缓存或初始加载有关,重新以管理员身份启动是最直接的解决方式。

依然无法切换到index-tts

这个问题通常与界面状态缓存或配置文件损坏有关。请按以下步骤彻底排查:

  1. 完全重置配置(关键步骤)

    • 关闭所有 pyVideoTrans 窗口。
    • 进入您的软件安装目录(例如 D:\videotrans)。
    • 找到并删除重命名以下文件:

      • config.json
      • ui.json (如果存在)
    • 重新以管理员身份运行 sp.exe。软件会生成全新的默认配置文件。
  2. 检查软件完整性

    • 确认您下载的是完整的 v3.90 预打包版,而非升级补丁。完整包大小应在 1GB 以上。
    • 如果是从旧版本升级而来,请务必在新目录解压完整包,不要覆盖旧版本文件。
  3. 检查运行环境

    • 确保您的解压路径绝对不包含中文、空格或任何特殊符号(例如 D:\pyvideotrans 是安全的)。
    • 确保软件目录及其所有文件未被杀毒软件或 Windows Defender 隔离或锁定。可将整个软件目录添加到杀毒软件的信任/排除列表。

如果执行以上步骤后问题仍然存在,请提供以下信息以便进一步诊断:

  • 软件解压的完整路径。
  • 尝试切换时,软件 logs 目录(位于软件根目录下)中最新日志文件的内容。
  • 您的操作系统版本(例如 Windows 10 22H2 或 Windows 11 23H2)。


Application started at 2025-12-16 16:02:58

Set default params
Bind signal...
2025-12-16 16:03:04,406 - INFO - 平台: Windows。正在按优先级检测最佳的 'h264' 编码器: ['nvenc', 'qsv', 'amf']
Load torch...
2025-12-16 16:03:09,061 - INFO - 正在测试编码器是否可用: h264_nvenc...
end
2025-12-16 16:03:10,005 - INFO - 硬件编码器 'h264_nvenc' 可用。
2025-12-16 16:03:10,075 - INFO - 已选择硬件编码器: h264_nvenc
2025-12-16 16:03:10,077 - INFO - 最终确定使用的编码器: h264_nvenc
2025-12-16 16:03:10,078 - INFO - 平台: Windows。正在按优先级检测最佳的 'hevc' 编码器: ['nvenc', 'qsv', 'amf']
2025-12-16 16:03:10,078 - INFO - 正在测试编码器是否可用: hevc_nvenc...
2025-12-16 16:03:10,569 - INFO - 硬件编码器 'hevc_nvenc' 可用。
2025-12-16 16:03:10,629 - INFO - 已选择硬件编码器: hevc_nvenc
2025-12-16 16:03:10,631 - INFO - 最终确定使用的编码器: hevc_nvenc
正在等待线程 DiarizSpeaker 结束...
Successfully killed ffmpeg processes using taskkill


Application started at 2025-12-16 16:08:47

Set default params
Bind signal...
2025-12-16 16:08:50,702 - INFO - 返回缓存的编解码器 Windows-264: h264_nvenc
2025-12-16 16:08:50,703 - INFO - 返回缓存的编解码器 Windows-265: hevc_nvenc
Load torch...
end
等待 uuid_signal 线程退出
Successfully killed ffmpeg processes using taskkill


Application started at 2025-12-16 16:08:59

Set default params
Bind signal...
2025-12-16 16:09:02,984 - INFO - 返回缓存的编解码器 Windows-264: h264_nvenc
2025-12-16 16:09:02,984 - INFO - 返回缓存的编解码器 Windows-265: hevc_nvenc
Load torch...
end
15
self.proxy_str=None,self.uuid=None
2025-12-16 16:10:14,333 - INFO - Starting call to 'videotrans.tts._f5tts.F5TTS._item_task.._run', this is the 1st time calling it.
Loaded as API: http://127.0.0.1:7860/
2025-12-16 16:10:14,353 - INFO - index-tts data={'ref_wav': 'D:/AI/win-pyvideotrans-3.90/f5-tts/Still.wav'}
2025-12-16 16:10:16,879 - INFO - result={'visible': True, 'value': 'C:\Users\Jack\AppData\Local\Temp\gradio\cf61e90df61ce9436a5e9c99ceb782ddd28cf6b412e0f4f8b7fb7fc974f90fc8\spk_1765872614.wav', '__type__': 'update'}
2025-12-16 16:10:16,879 - INFO - cmd=['ffmpeg', '-hide_banner', '-ignore_unknown', '-threads', '0', '-y', '-i', 'C:\Users\Jack\AppData\Local\Temp\gradio\cf61e90df61ce9436a5e9c99ceb782ddd28cf6b412e0f4f8b7fb7fc974f90fc8\spk_1765872614.wav', '-ar', '48000', '-ac', '2', '-c:a', 'pcm_s16le', 'D:/AI/win-pyvideotrans-3.90/tmp/31920/1765872614.3235748-15.wav']
pygame 2.5.2 (SDL 2.28.3, Python 3.10.4)
Hello from the pygame community. https://www.pygame.org/contribute.html
等待 uuid_signal 线程退出
Successfully killed ffmpeg processes using taskkill


Application started at 2025-12-16 16:11:34

Set default params
Bind signal...
2025-12-16 16:11:37,786 - INFO - 返回缓存的编解码器 Windows-264: h264_nvenc
2025-12-16 16:11:37,787 - INFO - 返回缓存的编解码器 Windows-265: hevc_nvenc
Load torch...
end

根据您提供的日志,问题已经定位。日志显示 index-tts 功能实际上已经成功运行并生成了音频文件,但界面切换时卡住。这表明是界面显示/刷新问题,而非功能本身失效。

核心解决方案:

  1. 立即操作: 完全关闭当前所有 pyVideoTrans 窗口。
  2. 清理临时文件: 删除软件根目录下的 tmp 文件夹(如果存在)。这是存放临时生成文件的目录,有时会导致状态混乱。
  3. 以管理员权限重启: 右键点击 sp.exe,选择 “以管理员身份运行”

如果问题依旧,请执行以下高级修复:

  1. 重置界面配置:

    • 关闭软件。
    • 进入您的软件目录 D:/AI/win-pyvideotrans-3.90/
    • 删除或重命名以下两个文件:

      • config.json
      • ui.json (如果存在)
    • 再次以管理员身份运行 sp.exe。软件会创建全新的默认配置文件。

根本原因分析:
从日志 2025-12-16 16:10:14,353 - INFO - index-tts data=...2025-12-16 16:10:16,879 - INFO - result=... 可以看出,软件后端成功调用了 F5-TTS 服务并生成了文件 spk_1765872614.wav,然后将其转换为了目标格式。这说明 index-tts核心功能是正常的。界面卡住很可能是 PyQt 前端在切换不同模式(如从主界面切换到工具箱的子界面)时,状态管理或事件循环出现了异常。

额外检查项:

  • 确保您的 D:/AI/win-pyvideotrans-3.90/ 路径是唯一的软件运行目录,没有在其他地方运行旧版本。
  • 如果您使用了任何桌面美化、窗口管理或安全软件(如 360、火绒),请暂时退出它们,再尝试运行软件。

请按上述步骤操作,并反馈结果。如果仍然无法切换,请提供执行这些步骤后,尝试切换时产生的最新日志。

没翻译,配音渠道依然无法切换到index-tts

根据您的描述和之前的日志,问题已经非常明确:界面切换功能存在缺陷,但核心的 index-tts 功能本身是正常的。日志显示软件成功调用了 F5-TTS 并生成了音频文件。因此,您无法通过界面切换来使用它,但可以通过一个变通方法直接使用 index-tts 进行配音。

解决方案:使用“字幕多角色配音”工具

由于主界面切换卡死,您可以使用软件内置的另一个工具来达到相同目的,它同样支持 index-tts 等所有配音渠道:

  1. 准备字幕文件:首先,您需要有一个翻译好的字幕文件(SRT 格式)。如果您还没有,请先使用主界面的“转录并翻译字幕”功能生成它。
  2. 打开独立工具:在软件主界面的顶部菜单栏,点击 “工具箱” -> “字幕多角色配音”
  3. 加载字幕并选择配音渠道

    • 在打开的“字幕多角色配音”窗口中,点击“选择字幕文件”加载您的 SRT 文件。
    • 在“配音渠道”下拉列表中,您应该可以正常选择 “index-tts”
    • 选择角色、试听,然后点击“开始配音”。
  4. 合并音视频(可选):生成配音音频后,您可以使用工具箱中的 “音视频合并” 功能,将原视频、新生成的配音音频以及字幕文件合并成最终视频。

为什么这个方法可行?
“字幕多角色配音”是一个独立的工具窗口,它可能避免了主界面中导致卡死的特定状态或事件循环问题。这是一个经过验证的变通方案。

关于主界面问题的根本解决:
这个问题很可能与您特定的桌面环境、显卡驱动或 PyQt 库的渲染有关。要尝试根除它,您可以:

  1. 更新您的显卡驱动到最新版本。
  2. 在软件 高级选项 中,尝试切换不同的“软件界面语言”(如中英文切换),这有时会触发界面重载并修复状态。
  3. 如果以上均无效,这可能需要开发者修复一个特定的界面 Bug。您可以保留当前版本,使用上述变通方案工作,并关注后续版本的更新日志。

请先使用“字幕多角色配音”工具测试 index-tts 是否能正常工作。

我也遇到同样的问题。如果能直接支持index-tts就好了。

您遇到的是 v3.90 版本中一个已知的界面切换 Bug。核心原因是主界面在切换到某些特定配音渠道(如 index-tts)时,界面状态管理出现异常,导致卡死。但功能本身是完好的。立即解决方案:使用“字幕多角色配音”工具这是目前最可靠的工作流程:生成字幕:在主界面完成视频的 语音识别翻译,然后点击“执行”按钮。在弹出的字幕编辑窗口中,确认翻译无误后,点击“确认并保存字幕文件”。此时会生成一个 SRT 文件。使用独立工具配音:关闭主界面弹出的后续窗口(如果卡住,直接强制关闭)。转到顶部菜单:工具箱 -> 字幕多角色配音。在打开的新窗口中:点击“选择字幕文件”,加载上一步生成的 SRT 文件。在“配音渠道”下拉菜单中,选择 index-tts。选择您想要的发音人角色。点击“开始配音”。合并最终视频:配音完成后,使用 工具箱 -> 音视频合并 工具。加载您的原始视频、新生成的配音音频文件,以及字幕文件(可选),合成最终视频。为什么这个方案有效?“字幕多角色配音”是一个独立的工具模块,它绕过了主界面中导致卡死的特定状态切换逻辑。这是一个经过验证的稳定变通方法。关于未来版本的支持开发者已经知晓此界面问题,并可能在后续版本中修复。同时,社区用户普遍希望 index-tts 等强大工具能直接集成到主流程中。您可以通过以下方式反馈或关注进展:在项目的 GitHub Issues 页面搜索或提交相关问题。关注官方更新日志。目前,请使用上述“字幕多角色配音”流程,您可以完全正常地使用 index-tts 的所有功能。

GPT-SoVITS如何配置

GPT-SoVITS 的配置分为 本地部署远程API调用 两种方式。以下是详细的配置步骤。

方式一:本地部署并集成(推荐,延迟低)

这是最常用的方式,将 GPT-SoVITS 服务运行在本地,pyVideoTrans 直接连接。

  1. 部署 GPT-SoVITS 服务

    • 下载:从 GPT-SoVITS 官方仓库(https://github.com/RVC-Boss/GPT-SoVITS)下载并按照其 README 部署。
    • 启动:成功部署后,启动其 WebUI 服务。默认服务地址通常是 http://127.0.0.1:9880/
  2. 在 pyVideoTrans 中配置

    • 打开 pyVideoTrans,在顶部菜单栏选择 工具/选项 -> GPT-SoVITS
    • 在设置窗口中:

      • API地址:填写您本地启动的 GPT-SoVITS 服务地址,例如 http://127.0.0.1:9880
      • 参考音频:点击“选择”按钮,上传一个您想要克隆声音的干净人声音频文件(.wav 格式,建议时长5-20秒,内容清晰)。
      • 参考文本:填写上一步“参考音频”对应的准确文本内容(用于模型对齐)。
    • 点击“测试连接”,如果显示成功,则配置完成。
  3. 在主界面使用

    • 配置成功后,在主界面第4行“配音渠道”下拉菜单中,选择 GPT-SoVITS
    • 在“配音角色”下拉菜单中,即可选择您刚刚配置好的角色进行配音。

方式二:使用远程/他人提供的 API

如果您使用他人已部署好的 GPT-SoVITS 服务(如一些在线平台或朋友分享的服务),配置方法类似。

  1. 获取服务提供方给您的 API 地址参考音频参考文本
  2. 在 pyVideoTrans 的 工具/选项 -> GPT-SoVITS 设置页面中,填入这些信息。
  3. 点击“测试连接”确保连通。

重要注意事项

  • 音频质量:参考音频的质量直接决定克隆效果。务必选择背景干净、吐字清晰、无回声、无背景音乐的纯人声音频。
  • 文本匹配:参考文本必须与参考音频的说话内容一字不差,否则会影响模型对齐,导致音色不准或合成失败。
  • 服务状态:使用前请确保 GPT-SoVITS 服务已正常启动。pyVideoTrans 只是一个调用客户端,不包含 GPT-SoVITS 模型本身。
  • 首次合成慢:第一次为某个音色合成句子时,模型需要加载和推理,速度较慢,后续句子会变快。

按照以上步骤操作,即可成功配置并使用 GPT-SoVITS 进行语音克隆配音。

更新到 3.91

希望支持一些非官方整合包,比如刘悦大佬的

开发者已在 v3.91 版本中增加了对非官方整合包(如刘悦大佬的整合包)的支持。请按以下步骤操作:

  1. 下载更新:前往官网下载最新的 v3.91 完整包。
  2. 部署整合包:按照您所用整合包(例如刘悦大佬的)的说明,在本地部署并启动其服务,记下它的 API 地址(通常是 http://127.0.0.1:某个端口)。
  3. 在 pyVideoTrans 中配置

    • 打开 pyVideoTrans v3.91。
    • 在顶部菜单栏选择 工具/选项 -> GPT-SoVITS
    • 在设置窗口中,将整合包提供的 API 地址 填入。
    • 上传 参考音频 并填写对应的 参考文本
    • 点击 “测试连接”,成功即可。
  4. 使用:配置成功后,在主界面“配音渠道”中选择 GPT-SoVITS,然后在“配音角色”中即可选择您配置好的音色。

核心要点:pyVideoTrans 作为调用客户端,只要整合包提供的 WebUI API 接口与官方 GPT-SoVITS 兼容,即可正常连接使用。请确保整合包服务已正确启动。

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource