pyVideoTrans 目前版本 (v3.92) 的图形界面中并未直接提供 WhisperX 渠道的选项。软件内置的语音识别渠道主要是 faster-whisper 和 openai-whisper。
如果您希望使用 WhisperX,通常需要通过修改配置文件或使用命令行参数来启用,但这属于高级用法,且官方预打包版可能未包含此渠道。
建议您按以下步骤操作:
确认软件版本与渠道:
- 打开 pyVideoTrans,在主界面第2行“语音识别”的下拉列表中查看。如果列表里没有
whisperx,则说明当前版本未集成此渠道。 - 更推荐:直接使用已集成的
faster-whisper(本地) 渠道,它基于 Whisper 优化,速度更快、显存占用更低,效果与 WhisperX 相近。
如需强制使用 WhisperX(高级用户):
- 这通常需要您使用源码版部署,并自行安装 WhisperX 的 Python 包 (
pip install whisperx)。 - 然后,您可能需要修改 pyVideoTrans 的源代码来添加对 WhisperX 的支持,或者通过其“自定义API”功能进行调用。这个过程比较复杂。
手动下载模型(适用于 faster-whisper/openai-whisper):
如果您遇到模型自动下载失败的问题,可以手动下载:
- 模型仓库:从 Hugging Face 下载,例如
guillaumekln/faster-whisper-large-v3 或 openai/whisper-large-v3。 - 存放位置:将下载的模型文件夹放置到软件所在目录的
models 文件夹下(如果没有则新建)。 - 软件内选择:在“语音识别”的“模型”下拉菜单中,选择您下载的模型名称(如
large-v3)。
结论:对于绝大多数用户,配置并使用内置的 faster-whisper 是更简单、更稳定的选择。 如果您有必须使用 WhisperX 的特殊需求,请考虑使用源码部署并查阅开发文档。
请查看更多参考文档: