#2573 如何使用kotoba-whisper-v2.2模型导出字幕文件?

103.197* Posted at: 1 day ago 👁14

如何使用kotoba-whisper-v2.2模型导出字幕文件?

1 Replies

根据官方文档,pyVideoTrans 目前不支持直接使用 kotoba-whisper-v2.2 模型进行语音识别和导出字幕。该软件内置的语音识别引擎是 faster-whisperopenai-whisper,它们使用 .bin.pt 格式的模型文件。

如果您想使用 kotoba-whisper-v2.2 模型,您需要:

  1. 转换模型格式:将 kotoba-whisper-v2.2 模型(通常是 .safetensors.pth 格式)转换为 faster-whisperopenai-whisper 兼容的格式。这是一个技术性较强的操作,需要熟悉模型转换工具(如 ct2-transformers-converter 用于转 faster-whisper 格式)。
  2. 放置模型文件:将转换后的模型文件放入 pyVideoTrans 的模型缓存目录(通常是 %USERPROFILE%/.cache/whisper%USERPROFILE%/.cache/huggingface/hub 下的对应子目录)。
  3. 在软件中选择:启动 pyVideoTrans,在语音识别(ASR)设置中选择 faster-whisper(本地)openai-whisper(本地),然后在模型下拉列表中查找您转换后并放置好的模型名称。

更简单的替代方案
如果您只是想导出字幕文件,建议直接使用 pyVideoTrans 内置的 faster-whisper 模型(如 large-v3),其识别效果已经非常优秀。操作步骤如下:

  1. 在软件主界面,第2行“语音识别” 处,选择 faster-whisper(本地)
  2. 在“模型”下拉菜单中,选择 large-v3(首次使用会自动下载)。
  3. 导入您的视频或音频文件。
  4. 点击右下角的 “开始” 按钮。
  5. 识别完成后,会弹出字幕编辑窗口,您可以在此编辑并保存字幕文件(SRT格式)。

请查看更多参考文档:

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Donate: https://ko-fi.com/jianchang512

Trending Questions