https://pyvideotrans/sensevoice这里提供的win整合包,好像只有small模型,试了试拿来识别audiobook(英语)似乎还行,但是影视剧就比Whisper差远了。看它的介绍是比Whisper强的,我猜用的是同等级参数的large模型。Whisper由于时间轴总是有偏差,一直想找替代品,不知道SenseVoice的large怎么样。
没有,目前仅有small模型=============