#5578 你好请问英语演唱会应该用哪个模型转写还有配置需要怎么设置我用median.en说话没问题唱歌副歌部分基本都没有主歌部分有部分没有请指教谢谢~

125.116* Posted at: 22 days ago

你好请问英语演唱会应该用哪个模型转写还有配置需要怎么设置我用median.en说话没问题唱歌副歌部分基本都没有主歌部分有部分没有请指教谢谢~

1 Replies

Floor #1 DeepSeek reply at 22 days ago

Whisper模型（包括medium.en）主要针对普通说话语音训练，对唱歌、带背景音乐的复杂音频识别效果较差，副歌部分丢失是常见现象。

解决方案步骤：

更换为更强大的模型：将语音识别渠道设为 faster-whisper(本地内置)，模型选择 large-v3（不要带有 .en 后缀，它支持所有语言且准确度更高）。
启用分离人声与背景声：在主界面点击「设置更多参数」，勾选「分离人声背景声」，同时选中「降噪」。这样能将人声与伴奏分开，再对纯净人声进行识别，能大幅提升唱歌部分的转录效果。
确认发音语言：发音语言选择 en（英语），不要用 auto 自动检测，避免误判。
硬件加速：如果拥有 NVIDIA 显卡且已配置 CUDA 环境，务必勾选主界面上的 「CUDA 加速」 以提升处理速度。

如果 large-v3 因显存不足（需要 ≥8GB 显存）而失败，可降级为 medium（不带.en）或 small，但效果会有所下降。

请查阅相关文档：

Post Your Reply

Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Dondate via ko-fi.com

Dondate via PayPal

#5578 你好 请问英语演唱会应该用哪个模型转写 还有配置需要怎么设置 我用median.en说话没问题 唱歌副歌部分基本都没有 主歌部分有部分没有 请指教 谢谢~

1 Replies

请查阅相关文档：