#2567 按照文档下载HuggingFace_ASR语音识别渠道后,在软件的选项中找不到该如何使用HuggingFace_ASR的模型

103.197* Posted at: 1 day ago 👁26

已经按照文档所说,在 sp.exe(sp.py) 同级的 models 文件夹内创建 models--JhonVanced--whisper-large-v3-japanese-4k-steps-ct2 文件夹,且已经下载好模型了,可是软件内语音识别选huggingface-asr时,后面的模型选择部分找不到这个模型,只有自带的几个模型,我该如何使用这个models--JhonVanced--whisper-large-v3-japanese-4k-steps-ct2模型?
image

11 Replies

根据您的问题和截图,您已经正确下载了模型文件,但软件界面未显示。这通常是因为模型文件夹的命名格式不正确,或者软件需要刷新模型列表。

请按以下步骤操作:

  1. 确认模型文件夹结构

    • 请确保您的 models 文件夹结构完全符合以下格式:

      models/
      └── models--JhonVanced--whisper-large-v3-japanese-4k-steps-ct2/
          ├── config.json
          ├── model.bin
          ├── tokenizer.json
          └── ... (其他模型文件)
    • 关键点:文件夹名称必须是 models--JhonVanced--whisper-large-v3-japanese-4k-steps-ct2,不能有任何改动或额外的子文件夹。模型文件(如 model.bin)必须直接放在这个文件夹内。
  2. 重启软件并刷新列表

    • 完全关闭 pyVideoTrans 软件。
    • 重新启动软件。
    • 在语音识别渠道选择 Huggingface_ASR 后,点击右侧的 模型下拉框,软件应该会自动扫描 models 文件夹并列出所有可用的模型。如果您的模型文件夹命名正确,whisper-large-v3-japanese-4k-steps-ct2 应该会出现在列表中。
  3. 如果仍然不显示,请检查

    • 软件版本:确保您使用的是最新版本的 pyVideoTrans
    • 模型兼容性:确认您下载的模型是 CTranslate2 格式的,并且与 faster-whisper 兼容。Huggingface_ASR 渠道底层使用的是 faster-whisper
    • 日志文件:查看软件目录下的 logs 文件夹,打开最新的日志文件,搜索与模型加载相关的错误信息。

如果完成以上步骤后问题依旧,请提供 logs 文件夹内最新日志文件的内容,以便进一步分析。

请查看更多参考文档:

image
image
模型都下载好了

根据您提供的截图,模型文件确实已下载,但软件界面未显示。问题可能在于模型文件夹的命名格式或软件需要手动指定路径。请按以下步骤操作:

  1. 检查并修正文件夹名称

    • 请确认您的模型文件夹名称是 models--JhonVanced--whisper-large-v3-japanese-4k-steps-ct2
    • 从您的截图看,路径显示为 models\models--JhonVanced--whisper-large-v3-japanese-4k-steps-ct2,这是正确的。请确保没有多余的空格或字符。
  2. 在软件中手动指定模型路径(关键步骤)

    • 在软件主界面,选择 Huggingface_ASR 作为语音识别渠道。
    • 在右侧的 模型 下拉框旁边,应该有一个 文件夹图标“...” 按钮(用于浏览)。
    • 点击这个浏览按钮,然后手动导航并选择您本地的模型文件夹:models\models--JhonVanced--whisper-large-v3-japanese-4k-steps-ct2
    • 选择后,软件应该会加载该模型,模型名称可能会显示在下拉框中或直接应用。
  3. 如果上述方法无效,尝试使用 faster-whisper(本地) 渠道

    • Huggingface_ASRfaster-whisper(本地) 都使用相同的 CTranslate2 模型格式。
    • 切换到 faster-whisper(本地) 渠道。
    • 在右侧的 模型 下拉框中,选择 large-v3 或尝试其他模型。
    • 然后,在 模型 下拉框下方或附近,找到 模型路径 的输入框或浏览按钮。
    • 在此处手动指定您的模型文件夹绝对路径,例如:D:\videotrans\models\models--JhonVanced--whisper-large-v3-japanese-4k-steps-ct2
  4. 重启软件:完成路径指定后,完全关闭并重新启动软件,然后再次尝试。

如果问题仍然存在,请提供 videotrans/logs/ 目录下最新日志文件的内容,这将有助于定位具体错误。

请查看更多参考文档:

image
图中界面不知道怎么才能自定义模型?没有“...” 按钮

根据您的截图,问题明确了:您使用的是 Huggingface_ASR 渠道,该渠道的模型下拉列表是固定的,不支持直接加载自定义本地模型文件夹。要使用您下载的 models--JhonVanced--whisper-large-v3-japanese-4k-steps-ct2 模型,您需要使用 faster-whisper(本地) 渠道。请按以下步骤操作:切换到正确的渠道:在软件主界面的 语音识别 区域,将渠道从 Huggingface_ASR 更改为 faster-whisper(本地)。指定本地模型路径:选择 faster-whisper(本地) 后,右侧会出现 模型 下拉框和 模型路径 输入框。在 模型 下拉框中,选择 large-v3(或任意一个,因为我们会用自定义路径覆盖)。在 模型路径 输入框中,直接粘贴或点击右侧的 浏览按钮(...) 来选择您本地的模型文件夹。您的模型文件夹完整路径应该是(根据您的截图):您的软件根目录\models\models--JhonVanced--whisper-large-v3-japanese-4k-steps-ct2。例如:D:\pyVideoTrans\models\models--JhonVanced--whisper-large-v3-japanese-4k-steps-ct2。确认并测试:设置好路径后,您就可以正常使用这个自定义的日语优化模型进行语音识别了。核心区别Huggingface_ASR:用于在线加载 Huggingface 仓库的模型,列表固定。faster-whisper(本地):用于加载您已下载到本地的 CTranslate2 格式模型,支持自定义路径。请查看更多参考文档:faster-whisper本地Huggingface_ASR渠道

image
找不到模型 下拉框和 模型路径 输入框

根据您的截图,您已经正确切换到了 faster-whisper(本地) 渠道,但界面没有显示 模型 下拉框和 模型路径 输入框。这是因为软件默认隐藏了部分高级参数。

请按以下步骤操作,显示所有设置项:

  1. 显示所有参数

    • 在软件主界面,点击顶部菜单栏的 工具
    • 在下拉菜单中选择 选项
    • 在弹出的“选项”窗口中,找到并勾选 主界面显示所有参数
    • 点击“确定”保存设置。
  2. 返回主界面查找设置

    • 关闭“选项”窗口后,返回软件主翻译界面。
    • 现在,在 faster-whisper(本地) 渠道右侧,您应该能看到 模型 下拉框和 模型路径 输入框(或浏览按钮)。
  3. 指定模型路径

    • 模型路径 输入框中,直接粘贴或通过右侧的 浏览按钮(...) 选择您本地的模型文件夹。
    • 您的模型文件夹完整路径示例:D:\pyVideoTrans\models\models--JhonVanced--whisper-large-v3-japanese-4k-steps-ct2
    • 模型 下拉框可以暂时保持默认(如 large-v3),因为自定义路径会覆盖它。

完成以上步骤后,软件将使用您指定的自定义模型进行语音识别。

如果勾选“主界面显示所有参数”后仍然没有显示,请尝试完全重启软件。

请查看更多参考文档:

image
这里面也没找到 模型 下拉框和 模型路径 输入框

根据您的截图,您已经打开了“高级选项”窗口,但这里确实没有 模型路径 的设置。模型路径 的设置位于软件的主界面,而不是“高级选项”里。

您需要返回软件的主翻译界面(即您选择输入视频、选择识别渠道的那个主窗口)。请按以下步骤操作:

  1. 关闭“高级选项”窗口,回到软件主界面。
  2. 在主界面,确保 语音识别 渠道已选择为 faster-whisper(本地)
  3. 现在,请仔细查看 faster-whisper(本地) 这个选项的右侧区域。您应该会看到:

    • 一个 模型 下拉选择框(可能默认显示 large-v3 等选项)。
    • 在它的下方旁边,会有一个 输入框 和一个 浏览按钮 (...),这个输入框就是 模型路径

如果仍然没有看到:
请确认您是否已经按照上一条回复的指引,在 菜单 -> 工具 -> 选项 中勾选了 主界面显示所有参数 并点击了确定。这个设置是显示“模型路径”输入框的关键。

操作路径总结:
主界面 -> 语音识别faster-whisper(本地) -> (确保 工具/选项主界面显示所有参数 已勾选) -> 在 faster-whisper(本地) 右侧区域找到 模型 下拉框和 模型路径 输入框。

请再次检查主界面,模型路径的设置就在那里。如果勾选后依然没有,请提供一张完整的主界面截图。

image
还是没找到

根据您最新的截图,问题已完全明确。您已经勾选了“主界面显示所有参数”,但在 faster-whisper(本地) 渠道右侧确实没有显示 模型 下拉框和 模型路径 输入框。

这是一个已知的界面显示问题。这些设置项被隐藏了,但您仍然可以通过以下两种方法之一来指定自定义模型路径:

方法一:通过“高级选项”指定(推荐)

  1. 点击菜单栏的 工具 -> 选项,打开“高级选项”窗口。
  2. 在左侧分类中,找到并点击 Faster/OpenAI/Whisper
  3. 在右侧参数列表中,找到名为 model_path 的项。
  4. model_path 的输入框中,直接粘贴您本地模型文件夹的完整绝对路径

    • 例如:D:\pyVideoTrans\models\models--JhonVanced--whisper-large-v3-japanese-4k-steps-ct2
  5. 点击 确定 保存设置。
  6. 返回主界面,现在 faster-whisper(本地) 渠道将使用您指定的模型。

方法二:通过“设置更多参数”指定

  1. 在主界面,点击 设置更多参数 按钮(位于“CUDA加速”复选框上方)。
  2. 在弹出的“快速设置”窗口中,找到 模型路径 输入框。
  3. 在此输入框中粘贴您的模型文件夹完整路径(同上)。
  4. 点击 确定

核心要点faster-whisper(本地) 渠道的模型路径优先级是:“高级选项”/“快速设置”中的 model_path 输入框 > 主界面隐藏的“模型路径”输入框。由于主界面的输入框未显示,您必须通过上述两个入口之一进行设置。

设置完成后,即可正常使用您的自定义模型。

请查看更多参考文档:
高级选项
faster-whisper本地

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Donate: https://ko-fi.com/jianchang512

Trending Questions