#4351 自己下载的本地模型可以添加进来吗

120.236* Posted at: 3 hours ago 👁12

如题,我自己下载了Kotoba-Whisper v2.1模型,可以放到models里面吗

5 Replies

可以添加。但需严格按照 pyVideoTrans 要求的目录结构放置,否则软件无法识别。

具体步骤:

  1. 在软件目录的 models 文件夹内,创建名为 models--kotoba-tech--kotoba-whisper-v2.1 的文件夹。
  2. 将你下载的 Kotoba-Whisper v2.1 模型的所有文件(如 pytorch_model.binconfig.jsontokenizer.json 等)直接放入该文件夹内。
  3. 在软件主界面,将“语音识别”渠道切换为 HuggingFace_ASR,然后在右侧模型下拉列表中选择 kotoba-tech/kotoba-whisper-v2.1

若模型中缺少必要的配置文件,软件可能仍会尝试在线拉取,因此建议确保所有文件完整。

请查阅相关文档:

谢谢,谢谢,我试一下

不客气,期待你的测试反馈。

下拉框默认只有models--kotoba-tech--kotoba-whisper-v2.0,没有2.1,但是我把modes里面2.1的文件复制到2.0里面也可以识别,就是这断句有一些连在一起了,有哪里可以设置断句吗

断句粘连的常见原因是语音识别参数中“最长语音持续秒数”设置得过大,导致模型将多个句子当成长段输出,或者识别后没有进行有效分割。

请在 菜单 → 工具/选项 → 高级选项 → 语音识别参数 中尝试以下调整(修改后立即生效):

  1. 最长语音持续秒数 改为 5 或更小(如 3),强制在较长静音处分割。
  2. 静音分割持续毫秒 改为 200,降低分割门槛,使短停顿时也切分句子。
  3. 语音阈值 设为 0.5 左右,避免噪音干扰。
  4. 勾选 Whisper预分割音频(如果未勾选),让软件先按语音端点切分音频再识别。
  5. 如果你也希望保留2.1模型并让它出现在下拉列表中,需要参照模型命名规则添加配置——请参考以下文档。

如果调整后效果仍不理想,建议改用断句更优的 faster-whisper(本地) 并选择 large-v3 模型,它对中/日/英等语言的断句准确度更高。

请查阅相关文档:

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource