#4127 在m5芯片的mac使用本程序应该使用什么本地语音识别模型?

61.111* Posted at: 2 hours ago 👁8

在m5芯片的mac使用本程序应该使用什么本地语音识别模型?

1 Replies

在搭载 M5 芯片的 Mac 上使用 pyVideoTrans,由于 M 系列芯片是 ARM 架构且不支持 NVIDIA CUDA,因此无法使用依赖 CUDA 加速的本地语音识别模型(如 faster-whisper 的 GPU 加速模式)。

推荐使用以下本地语音识别模型:

  1. faster-whisper(本地):选择此渠道,但不要勾选主界面右上角的“CUDA加速”。软件将自动使用 CPU 进行推理。建议选择 large-v3 模型以获得最佳识别准确率,但处理速度会较慢。如果追求速度,可选择 mediumsmall 模型。
  2. openai-whisper(本地):此渠道同样使用 CPU 进行推理。其效果与 faster-whisper 类似,但通常速度更慢一些,准确度可能略有不同。
  3. qwen-asr(本地):如果原始视频主要是中文语音,此模型对中文的优化效果较好。

操作步骤

  1. 在主界面“语音识别”行,从下拉列表中选择上述任一渠道(例如 faster-whisper(本地))。
  2. 确保右上角的“CUDA加速”复选框未被勾选(M芯片Mac无法使用此功能)。
  3. 在渠道右侧的模型选择下拉菜单中,根据你对速度和准确度的需求选择合适的模型(如 large-v3)。
  4. 正确选择视频的“发音语言”。
  5. 开始翻译任务。

注意:由于完全依赖 CPU 运算,处理速度会显著慢于有 NVIDIA GPU 加速的 Windows/Linux 电脑,请对处理时长有合理预期。

请查阅相关文档:

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource