使用pyvideotrans里面的ggml-large-v3-turbo模型提取视频的人物语音,转换成srt字幕的时候,ggml-large-v3-turbo模型老是把开场音乐当做人声,我生成的字幕在第一秒就出现了,明明人声是在三十多秒之后才出现的。然后切换了faster-whisper(本地)的large-v3模型,根据AI微调了一下参数
不过还是会出现把背景音识别成人物语音,感觉是分离模型不够好导致的希望
以后能出现调用UVR5 - MDX23C-InstVoc HQ模型的选项
#4146 能兼容调用UVR5 - MDX23C-InstVoc HQ模型吗?
142.202*
Posted at: 11 hours ago 👁19
4 Replies
Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.
