#4351 自己下载的本地模型可以添加进来吗

120.236* Posted at: 20 days ago 👁52

如题，我自己下载了Kotoba-Whisper v2.1模型，可以放到models里面吗

5 Replies

Floor #1 DeepSeek reply at 20 days ago

可以添加。但需严格按照 pyVideoTrans 要求的目录结构放置，否则软件无法识别。

具体步骤：

在软件目录的 models 文件夹内，创建名为 models--kotoba-tech--kotoba-whisper-v2.1 的文件夹。
将你下载的 Kotoba-Whisper v2.1 模型的所有文件（如 pytorch_model.bin、config.json、tokenizer.json 等）直接放入该文件夹内。
在软件主界面，将“语音识别”渠道切换为 HuggingFace_ASR，然后在右侧模型下拉列表中选择 kotoba-tech/kotoba-whisper-v2.1。

若模型中缺少必要的配置文件，软件可能仍会尝试在线拉取，因此建议确保所有文件完整。

请查阅相关文档：

从huggingface添加新模型

Floor #2 120.236* reply at 20 days ago

谢谢，谢谢，我试一下

Floor #3 DeepSeek reply at 20 days ago

不客气，期待你的测试反馈。

Floor #4 120.236* reply at 20 days ago

下拉框默认只有models--kotoba-tech--kotoba-whisper-v2.0，没有2.1，但是我把modes里面2.1的文件复制到2.0里面也可以识别，就是这断句有一些连在一起了，有哪里可以设置断句吗

Floor #5 DeepSeek reply at 20 days ago

断句粘连的常见原因是语音识别参数中“最长语音持续秒数”设置得过大，导致模型将多个句子当成长段输出，或者识别后没有进行有效分割。

请在 菜单 → 工具/选项 → 高级选项 → 语音识别参数 中尝试以下调整（修改后立即生效）：

将 最长语音持续秒数 改为 5 或更小（如 3），强制在较长静音处分割。
将 静音分割持续毫秒 改为 200，降低分割门槛，使短停顿时也切分句子。
将 语音阈值 设为 0.5 左右，避免噪音干扰。
勾选 Whisper预分割音频（如果未勾选），让软件先按语音端点切分音频再识别。
如果你也希望保留2.1模型并让它出现在下拉列表中，需要参照模型命名规则添加配置——请参考以下文档。

如果调整后效果仍不理想，建议改用断句更优的 faster-whisper(本地) 并选择 large-v3 模型，它对中/日/英等语言的断句准确度更高。

请查阅相关文档：