#5596 (18.666667 > 2.400000)2026-07-02 16:19:45,208 - DEBUG - Compression ratio threshold is not met with temperature 0.6 (

114.233* Posted at: 5 hours ago

(18.666667 > 2.400000)
2026-07-02 16:19:45,208 - DEBUG - Compression ratio threshold is not met with temperature 0.6 (18.666667 > 2.400000)
2026-07-02 16:19:49,907 - DEBUG - Compression ratio threshold is not met with temperature 0.8 (18.666667 > 2.400000)
2026-07-02 16:19:54,608 - DEBUG - Compression ratio threshold is not met with temperature 1.0 (18.666667 > 2.400000)
2026-07-02 16:19:54,958 - DEBUG - Processing segment at 05:00.000
2026-07-02 16:20:03,948 - DEBUG - Compression ratio threshold is not met with temperature 0.0 (18.666667 > 2.400000)
2026-07-02 16:20:03,948 - DEBUG - Log probability threshold is not met with temperature 0.0 (-291.128876 < -1.000000)
2026-07-02 16:20:08,682 - DEBUG - Compression ratio threshold is not met with temperature 0.2 (18.666667 > 2.400000)
2026-07-02 16:20:13,535 - DEBUG - Compression ratio threshold is not met with temperature 0.4 (18.666667 > 2.400000)
2026-07-02 16:20:18,574 - DEBUG - Compression ratio threshold is not met with temperature 0.6 (18.666667 > 2.400000)
2026-07-02 16:20:23,382 - DEBUG - Compression ratio threshold is not met with temperature 0.8 (18.666667 > 2.400000)
2026-07-02 16:20:28,208 - DEBUG - Compression ratio threshold is not met with temperature 1.0 (18.666667 > 2.400000)
2026-07-02 16:20:28,608 - DEBUG - Processing segment at 05:30.000

3 Replies

日志中反复出现 "Compression ratio threshold is not met" 表明 Whisper 模型在识别该音频段时认为压缩比(文本长度与音频时长的比值)过低,无法产生有效转录。这通常意味着该段音频中缺乏清晰的人类语音,可能是噪声过大、语速过慢、静音过长或发音语言选择错误导致的。

解决方案

  1. 开启人声背景分离或降噪
    在主界面点击"设置更多参数",勾选 分离人声背景声 和/或 降噪,让软件先预处理音频,去除背景干扰。
  2. 调整 VAD 参数
    菜单 → 工具 → 高级选项 → 语音识别参数

    • 减小 语音阈值(默认0.5可试0.3),让 VAD 更敏感地捕捉低音量语音。
    • 适当减小 最长语音持续(秒)(例如设为5~8),避免长段无效静默被合并。
  3. 确认发音语言选择正确
    必须手动指定 Spoken Lang(发音语言),不要留空或使用"自动检测",否则模型可能按错误语言处理导致压缩比异常。
  4. 更换语音识别渠道
    如果以上无效,尝试切换 ASR 渠道,例如中文可改用 Qwen-ASR(本地内置)字节语音识别大模型极速版(在线收费),这些渠道对噪声容忍度更高。
  5. 检查原始音频质量
    用播放器听一下对应时间点(约5:00~5:30)的音频,确认是否真的含有人声。如果音频本身是纯音乐或无意义噪音,Whisper 无法识别属于正常现象。

若以上操作后问题依旧,请提供该段音频的简短片段(10~20秒)以及软件安装目录下 logs/ 中最新的完整日志文件(包含软件版本号),以便进一步分析。

这个我使用cuda处理就会出问题,不使用cuda就没有问题

你的情况很明确:CUDA 环境或显存配置导致 Whisper 模型在进行 GPU 加速时出现异常,而 CPU 模式因采用不同计算路径可正常完成。核心原因可能包括:

  1. CUDA 工具包 / cuDNN 版本与软件绑定的版本不严格匹配(要求 CUDA 12.8+、cuDNN 9.11+)。
  2. 显存不足 — 当显存被其他程序占用或模型过大时,模型可能回退到降级处理策略,导致压缩比计算异常。
  3. 计算数据类型冲突 — 在高级选项中设置了不兼容的 计算数据类型(如 int8 在 CUDA 下不稳定)。

解决方案(按优先级执行):

  1. 验证 CUDA 与 cuDNN 版本
    打开 cmd 输入:

    nvcc -V

    确认输出中的版本 ≥ 12.8
    检查 cuDNN 版本:找到 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.8\include\cudnn_version.h,查看 #define CUDNN_MAJOR 等,需要 ≥ 9.11

  2. 检查系统环境变量
    确保 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.8\binC:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.8\lib 已添加到 Path 环境变量中。
  3. 强制关闭其他占用显存的程序(如浏览器、游戏),或重启电脑后仅运行本软件。
  4. 降低模型大小或调低计算精度

    • 在 ASR 渠道选择 faster-whisper(本地内置),模型改为 smallmediumlarge-v3 需要 ≥ 8GB 显存)。
    • 进入 菜单 → 工具 → 高级选项 → 语音识别参数,将 计算数据类型 改为 float16(最平衡)或 int8(更省显存,但需确认 CUDA 兼容性;若不兼容,可能回退到 CPU 导致变慢)。
  5. 降低 CUDA 任务并发数
    高级选项 → 通用设置 中,将 GPU同时任务数 设为 1,并在多显卡模式下确保仅使用显存最大的显卡。
  6. 更新显卡驱动
    前往 NVIDIA 官网 安装最新驱动(驱动版本需支持 CUDA 12.8+)。

如果以上步骤仍无法解决,请提供 logs/ 目录下最近的完整日志(包括软件左上角版本号),以及 nvidia-smi 命令的输出截图,以便进一步分析。

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update. Dondate: ko-fi.com/jianchang512

Related resource