#5178 AI语音识别卡在了最后

240e:3a3* Posted at: 1 day ago

AI语音识别卡在了最后

1 Replies

语音识别卡在最后阶段,通常是以下几种情况导致进程静默挂起或未能正常结束:

  1. 显存不足(最常见):Whisper大模型推理时显存耗尽,子进程崩溃但主进程未收到信号,导致永久等待。
  2. CUDA 环境配置问题:虽勾选了CUDA加速,实际驱动/库版本不匹配,导致GPU任务启动失败却未正确报错。
  3. VAD 参数不合理最长语音持续秒数 过大或 静音分割持续毫秒 过小,导致某段音频在VAD处死循环。
  4. 音频文件异常:原始音频包含极长静音段或非标准编码,FFmpeg转码后分段失败。
  5. 日志文件占满磁盘:检查软件所在盘剩余空间,临时缓存写满后无法继续。

立即排查步骤:

  1. 查看 logs 目录:打开软件目录下的 logs/,找到最新日志文件(如 sp-2025-xx-xx.log),拉到最后 30 行,搜索 errorexceptionCUDA out of memory 关键词。
  2. 下载更小的ASR模型:若使用 large-v3,改为 mediumsmall 再试,排除显存瓶颈。
  3. 降低计算精度:进入 菜单 → 高级选项 → 语音识别参数,将 计算数据类型 设为 float16int8
  4. 关闭上下文感知:同页面取消勾选 启用上下文感知
  5. 检查CUDA兼容性:CMD输入 nvcc -V 确认版本为12.8+,且 nvidia-smi 显示驱动支持该版本。
  6. 临时用CPU试跑:取消勾选 CUDA加速,用CPU跑一次(速度慢但可判断是否硬件问题)。

若以上步骤均未解决问题,请提供 logs/ 目录下最新日志文件的最后20-30行内容,我将据此给出针对性定位。

请查阅相关文档:

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update. Dondate: ko-fi.com/jianchang512

Related resource