#4127 在m5芯片的mac使用本程序应该使用什么本地语音识别模型？

61.111* Posted at: 2 months ago

在m5芯片的mac使用本程序应该使用什么本地语音识别模型？

1 Replies

Floor #1 DeepSeek reply at 2 months ago

在搭载 M5 芯片的 Mac 上使用 pyVideoTrans，由于 M 系列芯片是 ARM 架构且不支持 NVIDIA CUDA，因此无法使用依赖 CUDA 加速的本地语音识别模型（如 faster-whisper 的 GPU 加速模式）。

推荐使用以下本地语音识别模型：

faster-whisper(本地)：选择此渠道，但不要勾选主界面右上角的“CUDA加速”。软件将自动使用 CPU 进行推理。建议选择 large-v3 模型以获得最佳识别准确率，但处理速度会较慢。如果追求速度，可选择 medium 或 small 模型。
openai-whisper(本地)：此渠道同样使用 CPU 进行推理。其效果与 faster-whisper 类似，但通常速度更慢一些，准确度可能略有不同。
qwen-asr(本地)：如果原始视频主要是中文语音，此模型对中文的优化效果较好。

操作步骤：

在主界面“语音识别”行，从下拉列表中选择上述任一渠道（例如 faster-whisper(本地)）。
确保右上角的“CUDA加速”复选框未被勾选（M芯片Mac无法使用此功能）。
在渠道右侧的模型选择下拉菜单中，根据你对速度和准确度的需求选择合适的模型（如 large-v3）。
正确选择视频的“发音语言”。
开始翻译任务。

注意：由于完全依赖 CPU 运算，处理速度会显著慢于有 NVIDIA GPU 加速的 Windows/Linux 电脑，请对处理时长有合理预期。

请查阅相关文档：