#3924 求断句好一点的本地部署大模型

1.80* Posted at: 2 hours ago 👁18

有没有语音转文字时断句好一点的本地部署大模型,faster-whisper(large-v3-turbo)、openai-whisper(large-v3-turbo)和parakeet-tdt感觉断的都不太好

5 Replies

语音识别断句效果不佳是常见问题,主要与VAD(语音活动检测)参数设置和模型本身的断句能力有关。本地部署的大模型中,faster-whisperopenai-whisper 的断句能力相近,parakeet-tdt 主要针对英语。改善断句的核心在于调整软件内的VAD参数,而非更换模型。

解决方案:

  1. 调整VAD参数:在软件主界面,点击 菜单 -> 工具 -> 高级选项,找到“语音识别参数”区域,进行如下调整:

    • 语音阈值:从默认的 0.5 适当降低(例如设为 0.3),以提高对弱语音的灵敏度。
    • 最长语音持续秒数:从默认的 6 减小(例如设为 43),强制更频繁地分割长句。
    • 静音分割持续毫秒:从默认的 500 增大(例如设为 8001000),确保在足够长的静音处才进行分割,避免将一句话切碎。
    • 最短语音持续毫秒:保持默认或设为 1000,避免过短片段。
    • 选择VAD:尝试切换不同的VAD模型(如 ten-vadsilero),观察效果。
  2. 使用LLM重新断句(高级功能):如果调整VAD后仍不理想,可以利用AI大模型对识别出的原始字幕进行智能重新断句。

    • 在同一“高级选项”的“通用设置”区域,配置“LLM重新断句所用AI渠道”(例如选择已配置好的DeepSeek或OpenAI渠道)。
    • 在“语音识别参数”区域,将“重新断句”选项设置为 1(使用LLM重新断句)。
    • 此功能会将初步识别的字幕发送给AI模型,请求其根据语义重新划分句子,效果通常显著优于纯VAD分割。
  3. 确保硬件资源:使用 large-v3large-v3-turbo 模型时,请确保有足够的显存(建议10GB以上)并已勾选“CUDA加速”,以保证模型能充分发挥能力。

如果以上调整后断句问题依旧,可能是原视频音频质量(如背景噪音、语速过快)或特定语言(如中文无显著停顿)的特性所致,可尝试开启“降噪”功能后再进行识别。

请查阅相关文档:

中文发音的选择 Qwen-ASR、 阿里FunASR
英文: faster-whisper large-v3 模型

image
faster-whisper large-v3 模型和openai-whisper(large-v3-turbo)都试过了,截图就是openai-whisper(large-v3-turbo)的最后都需要手动修正

断句效果不佳是语音识别的常见挑战,尤其是在处理连续、无显著停顿的语流时。根据开发者回复,对于中文发音,Qwen-ASR阿里FunASR 是更优选择,它们对中文的断句和语义理解通常优于Whisper系列模型。对于英文,faster-whisper large-v3 模型是推荐选项。

要显著改善断句效果,请按以下步骤操作:

  1. 更换中文识别模型:如果您的视频是中文发音,请将“语音识别渠道”从 faster-whisperopenai-whisper 切换为 Qwen-ASR(本地)阿里FunASR(本地)。首次使用需要在线下载模型。
  2. 精细调整VAD参数:无论使用哪个模型,调整VAD参数都是关键。点击 菜单 -> 工具 -> 高级选项,在“语音识别参数”区域进行如下设置:

    • 语音阈值:尝试降低至 0.30.2,提高语音检测灵敏度。
    • 最长语音持续秒数:根据语速调整为 34 秒,强制分割长句。
    • 静音分割持续毫秒:增大至 8001000 毫秒,确保在足够长的静音处才断句,避免切碎句子。
    • 选择VAD:尝试切换不同的VAD模型(如 ten-vadsilero)。
  3. 启用LLM智能重新断句(强力推荐):这是解决断句问题的终极方案。在“高级选项”中:

    • 在“通用设置”区域,配置好 LLM重新断句所用AI渠道(例如已设置好的DeepSeek、OpenAI等渠道)。
    • 在“语音识别参数”区域,将 重新断句 选项设置为 1(使用LLM重新断句)。
    • 此功能会在初步语音识别后,调用AI大模型根据语义上下文对字幕进行智能重组和断句,效果远优于基于时长的VAD分割。
  4. 开启降噪:如果视频背景音复杂,勾选主界面上的 降噪 选项,可以提升语音清晰度,间接改善断句准确性。

请查阅相关文档:

菜单 -> 工具 -> 高级选项-语音识别参数

vad选择silero
whisper预先分割?取消选中,如果存在这个选项
whipser批次如果存在这个选项,设为 1
静音分割持续毫秒设为1000
合并邻近短句选中

这样试试

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource