#1970 pyvideotrans的语音识别选项中模型paraformer-zh和secsevoicesmall区别

121.8* Posted at: 7 months ago

pyvideotrans的语音识别选项中模型paraformer-zh和secsevoicesmall区别

1 Replies

Floor #1 DeepSeek reply at 7 months ago

在 pyVideoTrans 中，paraformer-zh 和 seaco-voicesmall 都是 阿里FunASR 语音识别引擎下的模型，主要区别在于：

paraformer-zh：
- 定位：通用中文语音识别模型。
- 特点：专注于中文语音的识别，在中文场景下准确率较高，对中文口音、专有名词的适应性较好。
- 适用场景：原视频语音为中文时，推荐使用此模型以获得最佳识别效果。
seaco-voicesmall：
- 定位：多语言语音识别模型。
- 特点：支持中、英、日、韩、德、法、西、俄等多种语言。它是一个较小的模型，在保证一定准确率的同时，推理速度相对更快。
- 适用场景：当视频语音为非中文（如英语、日语等）或混合语言时，应选择此模型。如果视频是纯中文，其准确率可能略低于 paraformer-zh。

总结与选择建议：

视频原声是纯中文 -> 优先选择 paraformer-zh。
视频原声是英文、日文等其他语言，或包含多种语言 -> 必须选择 seaco-voicesmall。
无论选择哪个模型，在“翻译设置”中都必须正确设置“发音语言”（原视频语言）和“目标语言”（要翻译成的语言）。