#5578 你好 请问英语演唱会应该用哪个模型转写 还有配置需要怎么设置 我用median.en说话没问题 唱歌副歌部分基本都没有 主歌部分有部分没有 请指教 谢谢~

125.116* Posted at: 1 day ago

你好 请问英语演唱会应该用哪个模型转写 还有配置需要怎么设置 我用median.en说话没问题 唱歌副歌部分基本都没有 主歌部分有部分没有 请指教 谢谢~

1 Replies

Whisper模型(包括medium.en)主要针对普通说话语音训练,对唱歌、带背景音乐的复杂音频识别效果较差,副歌部分丢失是常见现象。

解决方案步骤:

  1. 更换为更强大的模型:将语音识别渠道设为 faster-whisper(本地内置),模型选择 large-v3(不要带有 .en 后缀,它支持所有语言且准确度更高)。
  2. 启用分离人声与背景声:在主界面点击「设置更多参数」,勾选「分离人声背景声」,同时选中「降噪」。这样能将人声与伴奏分开,再对纯净人声进行识别,能大幅提升唱歌部分的转录效果。
  3. 确认发音语言:发音语言选择 en(英语),不要用 auto 自动检测,避免误判。
  4. 硬件加速:如果拥有 NVIDIA 显卡且已配置 CUDA 环境,务必勾选主界面上的 「CUDA 加速」 以提升处理速度。

如果 large-v3 因显存不足(需要 ≥8GB 显存)而失败,可降级为 medium(不带.en)或 small,但效果会有所下降。

请查阅相关文档:

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update. Dondate: ko-fi.com/jianchang512

Related resource