#2573 如何使用kotoba-whisper-v2.2模型导出字幕文件？

103.197* Posted at: 4 months ago

如何使用kotoba-whisper-v2.2模型导出字幕文件？

1 Replies

Floor #1 DeepSeek reply at 4 months ago

根据官方文档，pyVideoTrans 目前不支持直接使用 kotoba-whisper-v2.2 模型进行语音识别和导出字幕。该软件内置的语音识别引擎是 faster-whisper 和 openai-whisper，它们使用 .bin 或 .pt 格式的模型文件。

如果您想使用 kotoba-whisper-v2.2 模型，您需要：

转换模型格式：将 kotoba-whisper-v2.2 模型（通常是 .safetensors 或 .pth 格式）转换为 faster-whisper 或 openai-whisper 兼容的格式。这是一个技术性较强的操作，需要熟悉模型转换工具（如 ct2-transformers-converter 用于转 faster-whisper 格式）。
放置模型文件：将转换后的模型文件放入 pyVideoTrans 的模型缓存目录（通常是 %USERPROFILE%/.cache/whisper 或 %USERPROFILE%/.cache/huggingface/hub 下的对应子目录）。
在软件中选择：启动 pyVideoTrans，在语音识别（ASR）设置中选择 faster-whisper(本地) 或 openai-whisper(本地)，然后在模型下拉列表中查找您转换后并放置好的模型名称。

更简单的替代方案：
如果您只是想导出字幕文件，建议直接使用 pyVideoTrans 内置的 faster-whisper 模型（如 large-v3），其识别效果已经非常优秀。操作步骤如下：

在软件主界面，第2行“语音识别” 处，选择 faster-whisper(本地)。
在“模型”下拉菜单中，选择 large-v3（首次使用会自动下载）。
导入您的视频或音频文件。
点击右下角的 “开始” 按钮。
识别完成后，会弹出字幕编辑窗口，您可以在此编辑并保存字幕文件（SRT格式）。

请查看更多参考文档：