使用faster-whisper(本地)语音识别英文,选择语音切割模式为整体识别,总是出现遗漏识别部分语音,我测试了large v1到v3-turbo的所有模型,也测试了distill版本的large模型,以及medium模型均有此问题。并且遗漏识别语音似乎是随机出现的,有的视频有遗漏,有的视频无遗漏。
通过更换语音切割模式为均等分割,遗漏识别现象消失,证明视频的音频质量不是导致遗漏识别的原因。但是由于均等分割的切割模式下,LLM重新断句不能使字幕按照实际的发音时间赋予时间戳,因而切换均等分割的切割模式无法满足实际使用需求。
请问这个问题如何解决?