#1012 最顽固的BUG:RuntimeError: 没有识别到任何说话声,请确认所选音视频中是否包含人类说话声,以及说话语言是否同所选一致

2408:826a* Posted at: 1 day ago 👁37

语音识别阶段出错:[faster-whisper(本地)] 运行时错误:没有识别到任何说话声,请确认所选音视频中是否包含人类说话声,以及说话语言是否同所选一致:
Traceback (most recent call last):
File "videotrans\task\job.py", line 105, in run
File "videotrans\task\trans_create.py", line 331, in recogn
File "videotrans\recognition\__init__.py", line 222, in run
File "videotrans\recognition\_base.py", line 78, in run
File "videotrans\recognition\_overall.py", line 196, in _exec

RuntimeError: 没有识别到任何说话声,请确认所选音视频中是否包含人类说话声,以及说话语言是否同所选一致

Windows-10-10.0.19045-SP0
version:v3.81
frozen:True
language:zh

这个BUG我搞了好多天了,尝试过能想到的一切操作,跟着deepseek,chatGPT学了很多东西,仍然搞不定,甚至从3.8.0一直到3.8.1了,到底是咋回事啊?T-T

目前只知道一个方向:是CUDA相关的问题,不勾选CUDA就没问题,勾选了就一定报错,我都从CUDA13又降到12.6了,照样没用。

5 Replies

本条内容由 DeepSeek 回复

这个问题确实与 CUDA 加速有关。当启用 CUDA 时,faster-whisper 模型可能无法正确处理音频数据,导致识别结果为空。以下是几种解决方案:

方案一:临时解决
在语音识别设置中,取消勾选“CUDA加速”选项。这是最直接的解决方法。

方案二:排查 CUDA 环境

  1. 更新显卡驱动:前往 NVIDIA 官网下载并安装最新的显卡驱动程序。
  2. 验证 CUDA 版本兼容性:Windows 预打包版绑定的 PyTorch 版本是 torch2.7.1+cu128。请确保您安装的 CUDA 版本是 12.x 系列。您可以通过命令行输入 nvcc --version 来确认。
  3. 清理并重装:如果版本正确但问题依旧,尝试完全卸载当前 CUDA,然后重新安装 CUDA 12.8。

方案三:更换语音识别模型
如果上述方案无效,可以尝试使用其他语音识别渠道,例如:

  • openai-whisper(本地) (同样支持 CUDA,但实现方式不同)
  • 阿里FunASR(本地)
  • 或任何在线 API 渠道

由于您已经进行了大量尝试,如果希望彻底解决 faster-whisper 的 CUDA 问题,建议提供更详细的日志文件(位于 软件根目录/logs/ 文件夹下),以便进行更深层次的诊断。

本条内容由 gpt-5-mini 回复

您提供的日志和详细描述指向了 faster-whisper 在启用 CUDA 加速时遇到的环境配置问题,而非软件本身的 faster-whisper 实现问题。虽然日志最终报告的是“没有识别到任何说话声”,但这通常是由于 CUDA 后端未能正常工作,导致模型无法处理音频数据,从而返回空结果。

您发现的 cuDNN DLL 放置问题是一个非常重要的线索,很可能就是导致 CUDA 加速失败的根本原因。

核心问题原因: CUDA 环境配置不正确,特别是 cuDNN 库的路径问题,导致 faster-whisper 模型无法正确利用 GPU 进行语音识别。

解决方案:

  1. 立即解决(不使用 CUDA):

    • pyVideoTrans 菜单栏选择 语音识别设置
    • 确保您的“语音识别渠道”是 faster-whisper(本地)
    • 取消勾选“CUDA加速” 选项。这样软件会转为使用 CPU 进行识别,虽然速度会慢一些,但可以确保功能正常运行。
  2. 彻底解决(修复 CUDA 环境):
    为了让 faster-whisper 能够正确使用 CUDA 加速,您需要确保 CUDA 和 cuDNN 的环境配置是正确的。

    • 确认 CUDA 版本: pyVideoTrans Windows 预打包版本绑定的是 torch2.7.1+cu128。这意味着您的系统需要安装 CUDA 12.x 系列 (推荐 12.8) 才能完全兼容。您提到尝试了 12.6,理论上应该兼容,但最好是 12.8。
    • 更新显卡驱动: 确保您的 NVIDIA 显卡驱动是最新版本。前往 NVIDIA 官网下载并安装最新驱动。
    • 正确安装和配置 cuDNN:

      • 完全卸载 之前手动复制的 cuDNN 文件,确保没有残留。
      • 从 NVIDIA 官网下载 与您的 CUDA 12.x 版本完全匹配的 cuDNN 版本
      • 解压 cuDNN 压缩包。通常会包含 bin, include, lib 三个文件夹。
      • 将这三个文件夹中的所有内容分别复制到您的 CUDA 安装路径下对应的文件夹中。例如:

        • cuDNN/bin 下的 .dll 文件复制到 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.8\bin
        • cuDNN/include 下的 .h 文件复制到 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.8\include
        • cuDNN/lib 下的 .lib 文件复制到 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.8\lib
      • 检查系统环境变量 PATH: 确保 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.8\binC:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.8\lib\x64 (如果存在) 已添加到系统环境变量 PATH 中。cuDNN 的 DLL 文件必须能够被系统找到。
      • 您发现的 cudnn64_*.dll 问题正是因为 DLL 文件没有正确放置到 CUDA_PATH/bin 目录下,导致系统无法找到它们。
  3. 尝试其他本地语音识别模型:

    • 如果上述 CUDA 环境修复后仍然无法解决问题,您可以尝试在 语音识别设置 中,将“语音识别渠道”切换到 openai-whisper(本地)阿里FunASR(本地)。这些模型也支持 CUDA 加速,但其内部实现和依赖的底层库可能略有不同,或许能规避当前环境的兼容性问题。

请严格按照步骤2(尤其 cuDNN 的正确放置和环境变量设置)进行操作。如果问题依然存在,请再次提供完整的 videotrans/logs/ 目录下的最新日志文件,我将帮助您进一步分析。

切换阿里的本地模型后,就翻译成功了,虽然巨慢,2两份翻译了将近20分钟,但是成功了。但是我怀疑CUDA真的介入了吗?怎么会这么慢?还有就是,这是否证明之前的问题都是因为whisper的模型有问题?

CUDA和cuDNN我已经反复折腾很多次了,确信肯定安装设置正确了,我都能发现那个dll文件放置位置的BUG,那我当然也放置正确了啊!这一点不用怀疑。但是实在找不到CUDA相关的原因,我只能归结到whisper模型上了,因为同样勾选启用CUDA的情况下,阿里能翻译成功,那或许说明问题不在CUDA?但是阿里模型翻译的准确度太差了,简直无法使用,我还是希望能正常用上whisper模型,我知道它准确度比阿里高。

Admin

cudnn配置问题。安装 cuda12.8+cudnn9.11
阿里funasr只使用cuda,不使用cudnn,faster-whisper需要用到cudnn,否则cuda报错

https://pyvideotrans.com/gpu

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Donate: https://ko-fi.com/jianchang512

Trending Questions