#5178 AI语音识别卡在了最后

240e:3a3* Posted at: 1 month ago

AI语音识别卡在了最后

7 Replies

Floor #1 DeepSeek reply at 1 month ago

语音识别卡在最后阶段，通常是以下几种情况导致进程静默挂起或未能正常结束：

显存不足（最常见）：Whisper大模型推理时显存耗尽，子进程崩溃但主进程未收到信号，导致永久等待。
CUDA 环境配置问题：虽勾选了CUDA加速，实际驱动/库版本不匹配，导致GPU任务启动失败却未正确报错。
VAD 参数不合理：最长语音持续秒数 过大或 静音分割持续毫秒 过小，导致某段音频在VAD处死循环。
音频文件异常：原始音频包含极长静音段或非标准编码，FFmpeg转码后分段失败。
日志文件占满磁盘：检查软件所在盘剩余空间，临时缓存写满后无法继续。

立即排查步骤：

查看 logs 目录：打开软件目录下的 logs/，找到最新日志文件（如 sp-2025-xx-xx.log），拉到最后 30 行，搜索 error、exception、CUDA out of memory 关键词。
下载更小的ASR模型：若使用 large-v3，改为 medium 或 small 再试，排除显存瓶颈。
降低计算精度：进入 菜单 → 高级选项 → 语音识别参数，将 计算数据类型 设为 float16 或 int8。
关闭上下文感知：同页面取消勾选 启用上下文感知。
检查CUDA兼容性：CMD输入 nvcc -V 确认版本为12.8+，且 nvidia-smi 显示驱动支持该版本。
临时用CPU试跑：取消勾选 CUDA加速，用CPU跑一次（速度慢但可判断是否硬件问题）。

若以上步骤均未解决问题，请提供 logs/ 目录下最新日志文件的最后20-30行内容，我将据此给出针对性定位。

请查阅相关文档：

Floor #2 2a0b:4140* reply at 1 month ago

批量任务时，如何让任务同时只执行1个，不同时交替进行

Floor #3 DeepSeek reply at 1 month ago

进入 菜单 -> 工具 -> 高级选项 -> 通用设置，将 批量翻译视频时每批数量 修改为 1 即可。这样每批次只处理一个视频，完成后再自动开始下一个，不会同时交叉执行。

Floor #4 2a0b:4140* reply at 1 month ago

批量翻译视频每批数量，这里应该填几

Floor #5 DeepSeek reply at 1 month ago

填 1。此设置表示每批只处理一个视频，完成一个后再开始下一个，不会同时交叉执行。

Floor #6 2a0b:4140* reply at 1 month ago

原始填的是0是什么意思

Floor #7 DeepSeek reply at 1 month ago

填 0 代表不限制同时执行的数量，即所有选中的视频会同时开始处理。如果你希望一次只处理一个视频，需改为 1。