#3106 启动实时转录是 系统报错

2409:8a04* Posted at: 12 hours ago 👁17

image

9 Replies

这是由于实时语音转文字功能所需的模型文件缺失或下载失败导致的。

解决方案:

  1. 点击软件菜单栏中的“工具” -> “下载说话人识别模型和实时语音转文字模型”。
  2. 在弹出的窗口中,点击“下载”按钮,等待模型下载完成。
  3. 下载完成后,重启软件,再次尝试启动实时转录功能。

如果下载过程中遇到网络问题(如无法连接 HuggingFace),请配置网络代理或手动下载模型文件。

请查阅相关文档:

image
怎么设置把识别的语音文字翻译成日语后再合成声音输出到扬声器

要实现“实时语音识别 -> 翻译成日语 -> 日语语音合成 -> 扬声器播放”的完整流程,需要分别配置语音识别、翻译和配音渠道,并确保流程正确连接。

核心设置步骤:

  1. 配置语音识别(ASR)

    • 在“语音识别渠道”中选择一个模型(例如 faster-whisper)。
    • 在“原始语言”中选择你说话的语言(例如“中文”)。不要选择“自动检测”,以提高实时性。
    • 确保模型已正确下载(参考上一个问题的解决方案)。
  2. 配置翻译渠道

    • 在“翻译渠道”中选择一个支持日语的翻译服务(例如 DeepLGoogle翻译OpenAI/兼容接口DeepSeek)。
    • 将“目标语言”设置为“日语 (ja)”。
    • 根据所选渠道填写必要的 API Key 或配置代理。
  3. 配置配音渠道(TTS)

    • 在“配音渠道”中选择一个支持日语语音合成的服务(例如 Edge-TTSOpenAI TTSAzure TTS)。
    • 将“配音语言”设置为“日语 (ja)”。
    • 选择一个日语发音人(例如 Edge-TTS 中的 ja-JP-NanamiNeural)。
    • 关键步骤:在“输出”设置中,将“配音保存到”选项设置为“不保存,直接播放”。这样合成的声音就会直接输出到你的电脑扬声器,而不会生成文件。
  4. 启动流程

    • 完成以上设置后,点击软件主界面右下角的“开始实时语音转文字”按钮。
    • 你说话的声音将被识别为文字,然后自动翻译成日语,最后通过 TTS 合成日语语音并播放。

注意事项

  • 延迟:整个流程涉及三个在线或本地 AI 模型的连续调用,会有一定的延迟,不适合需要极低延迟的对话场景。
  • 渠道兼容性:确保你选择的翻译和 TTS 渠道都支持日语。
  • 网络与 API:如果使用在线服务(如 DeepL、OpenAI),需要稳定的网络连接和有效的 API 密钥。

请查阅相关文档:

image
image

这是由于你选择的配音渠道(Edge-TTS)不支持你设置的目标语言(日语)或发音人。解决方案:检查并修改配音渠道设置:确保“配音语言”已设置为“日语 (ja)”。在“配音角色”下拉列表中,选择一个明确支持日语的发音人。对于 Edge-TTS,日语发音人通常以 ja-JP- 开头,例如 ja-JP-NanamiNeural。如果当前角色列表中没有日语选项,说明你选择的“配音渠道”可能不支持日语,或者其内置角色列表不完整。尝试更换配音渠道:如果 Edge-TTS 无法提供满意的日语角色,可以尝试其他支持日语的 TTS 服务,例如:OpenAI TTS:在“配音渠道”中选择“OpenaiTTS”,并确保你的 API 模型支持日语(如 tts-1)。Azure TTS:功能强大,支持多语言,但需要 API 密钥。本地 TTS 模型:如 VITS/Piper,但需要下载对应的日语模型。验证流程:修改设置后,可以先用一小段文本在“工具”->“文本转语音”功能中测试,看是否能正常合成日语语音。如果测试成功,再回到实时语音转文字流程中使用。请查阅相关文档:Edge-TTS 配音渠道OpenaiTTS配音渠道AzureTTS 配音渠道

image
这个是下载的文件和介绍里面的不一样,文件不能用

这是由于你下载的模型文件不正确或命名不规范,导致软件无法识别。解决方案:删除错误文件:进入软件根目录下的 models 文件夹。删除你刚刚下载的、名称不正确的文件(例如 parakeet-rnnt-1.1b 文件夹或文件)。重新下载:确保在软件内通过“工具”->“下载说话人识别模型和实时语音转文字模型”窗口进行下载。在下载窗口中,确认你选择的是“实时语音转文字模型”,而不是其他模型。点击“下载”按钮,等待下载完成。正确的模型文件应该被自动下载并放置在 models 文件夹内一个命名规范的子文件夹中(例如 models--nvidia--parakeet-rnnt-1.1b)。手动下载(备用方案):如果自动下载失败,你需要手动从 HuggingFace 镜像站下载正确的模型文件。模型名称应为 nvidia/parakeet-rnnt-1.1b。下载后,将整个文件夹放入 models 目录,并确保文件夹名称符合格式(如 models--nvidia--parakeet-rnnt-1.1b)。重启软件:下载完成后,完全关闭并重新启动 pyVideoTrans,然后再次尝试实时转录功能。请查阅相关文档:下载说话人识别模型和实时语音转文字模型在线下载AI模型失败的解决办法

更新到 3.96版本

要更新到 pyVideoTrans 3.96 版本,请根据你的安装方式选择对应操作。

对于 Windows 预打包版用户:

  1. 访问官方下载页面,下载最新的 3.96 版本完整包或补丁包。
  2. 如果下载的是补丁包,请将其解压并覆盖到现有的软件目录(例如 D:\pyVideoTrans)。
  3. 如果下载的是完整包,建议解压到新的目录(路径不要有中文或空格),然后将旧目录下的 config.json 配置文件复制到新目录以保留你的设置。
  4. 启动新的 sp.exe

对于 macOS / Linux 源码部署用户:

  1. 进入你的 pyVideoTrans 项目目录。
  2. 执行命令拉取最新代码:git pull origin main
  3. 更新依赖:uv sync
  4. 启动软件:uv run sp.py

更新后注意事项:

  • 首次启动新版本可能需要重新下载或验证一些模型文件。
  • 建议查看官方更新日志以了解 3.96 版本的新功能和修复。

请查阅相关文档:

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource