#5215 TaskCfgSTT(uuid='65fdadfcdb', name='E:/DownLoad/DCL/MILF1942 My Mother My Date 2.mp4', dirname='E:/DownLoad/DCL', noextn

106.61* Posted at: 1 month ago

语音识别阶段出错[openai-whisper(本地)] Expected parameter logits (Tensor of shape (1, 51866)) of distribution Categorical(logits: torch.Size([1, 51866])) to satisfy the constraint IndependentConstraint(Real(), 1), but found invalid values:
tensor([[nan, nan, nan, ..., nan, nan, nan]], device='cuda:0'):Traceback (most recent call last):
File "videotrans\process\stt_fun.py", line 102, in openai_whisper
File "whisper\transcribe.py", line 295, in transcribe
File "whisper\transcribe.py", line 201, in decode_with_fallback
File "torch\utils\_contextlib.py", line 116, in decorate_context

return func(*args, **kwargs)

File "whisper\decoding.py", line 824, in decode
File "torch\utils\_contextlib.py", line 116, in decorate_context

return func(*args, **kwargs)

File "whisper\decoding.py", line 737, in run
File "whisper\decoding.py", line 703, in _main_loop
File "whisper\decoding.py", line 283, in update
File "torch\distributions\categorical.py", line 73, in init

super().__init__(batch_shape, validate_args=validate_args)

File "torch\distributions\distribution.py", line 72, in init

raise ValueError(

ValueError: Expected parameter logits (Tensor of shape (1, 51866)) of distribution Categorical(logits: torch.Size([1, 51866])) to satisfy the constraint IndependentConstraint(Real(), 1), but found invalid values:
tensor([[nan, nan, nan, ..., nan, nan, nan]], device='cuda:0')

Traceback (most recent call last):

File "videotrans\task\job.py", line 35, in run

File "videotrans\task\job.py", line 100, in process_task

File "videotrans\task\speech2text.py", line 126, in recogn

File "videotrans\recognition\__init__.py", line 190, in run

File "videotrans\recognition\_base.py", line 94, in run

File "videotrans\recognition\_whisper.py", line 34, in _exec

File "videotrans\recognition\_whisper.py", line 77, in _openai

File "videotrans\configure\base.py", line 253, in _new_process

videotrans.configure.excepts.VideoTransError: Expected parameter logits (Tensor of shape (1, 51866)) of distribution Categorical(logits: torch.Size([1, 51866])) to satisfy the constraint IndependentConstraint(Real(), 1), but found invalid values:
tensor([[nan, nan, nan, ..., nan, nan, nan]], device='cuda:0'):Traceback (most recent call last):
File "videotrans\process\stt_fun.py", line 102, in openai_whisper
File "whisper\transcribe.py", line 295, in transcribe
File "whisper\transcribe.py", line 201, in decode_with_fallback
File "torch\utils\_contextlib.py", line 116, in decorate_context

return func(*args, **kwargs)

File "whisper\decoding.py", line 824, in decode
File "torch\utils\_contextlib.py", line 116, in decorate_context

return func(*args, **kwargs)

File "whisper\decoding.py", line 737, in run
File "whisper\decoding.py", line 703, in _main_loop
File "whisper\decoding.py", line 283, in update
File "torch\distributions\categorical.py", line 73, in init

super().__init__(batch_shape, validate_args=validate_args)

File "torch\distributions\distribution.py", line 72, in init

raise ValueError(

ValueError: Expected parameter logits (Tensor of shape (1, 51866)) of distribution Categorical(logits: torch.Size([1, 51866])) to satisfy the constraint IndependentConstraint(Real(), 1), but found invalid values:
tensor([[nan, nan, nan, ..., nan, nan, nan]], device='cuda:0')
TaskCfgSTT(uuid='65fdadfcdb', name='E:/DownLoad/DCL/MILF1942 My Mother My Date 2.mp4', dirname='E:/DownLoad/DCL', noextname='MILF1942 My Mother My Date 2', basename='MILF1942 My Mother My Date 2.mp4', ext='mp4', target_dir='D:/win-pyvideotrans-v4.01-0602/output/recogn', cache_folder='D:/win-pyvideotrans-v4.01-0602/tmp/11692/65fdadfcdb', is_cuda=True, source_language=None, source_language_code=None, source_sub=None, source_wav=None, source_wav_output=None, target_language=None, target_language_code=None, target_sub='D:/win-pyvideotrans-v4.01-0602/output/recogn/MILF1942 My Mother My Date 2.srt', target_wav=None, target_wav_output=None, detect_language='auto', recogn_type=1, model_name='large-v3-turbo', shibie_audio='D:/win-pyvideotrans-v4.01-0602/tmp/11692/65fdadfcdb/MILF1942 My Mother My Date 2-1781529475.0595853.wav', remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False)

=
system:Windows-10-10.0.26100-SP0
version:v4.01
frozen:True
language:zh
root_dir:D:/win-pyvideotrans-v4.01-0602

Floor #1 DeepSeek reply at 1 month ago

这是因 GPU 推理时产生 NaN（非数字）值导致的数值不稳定错误，常见于显存不足或 CUDA 环境配置不当。

可能原因与解决办法：

显存不足：large-v3-turbo 模型需至少 8GB 空闲显存，若显存不足则会输出 NaN。
- 尝试改用更小的模型，如 medium 或 small（在语音识别渠道切换模型）。
- 降低计算精度：进入 菜单 → 高级选项 → 语音识别参数，将“计算数据类型”改为 float16（更快更省显存）或 int8（最省显存）。
CUDA 环境问题：确保已正确安装 CUDA 12.8+ 和 cuDNN 9.11+，且系统环境变量包含 CUDA 的 bin 和 lib 目录。
- 打开 CMD 执行 nvcc -V 确认版本，并检查显卡驱动是否最新。
音频文件异常：若音频时长极长或采样率异常，也可能引发此类错误。建议：
- 先用其他工具（如格式工厂）将音频截取一小段测试。
- 或切换为 faster-whisper(本地) 渠道（该渠道对数值稳定性更友好）。
模型文件损坏：尝试删除 models/ 下对应的 whisper 模型文件夹，让软件重新下载。

推荐操作：先切换为 faster-whisper(本地) + large-v3-turbo 或 medium 模型，并确保已勾选“CUDA加速”。若问题仍然存在，请提供 logs/ 文件夹内最新日志文件（复制底部约30行），以便进一步排查。

#5215 TaskCfgSTT(uuid='65fdadfcdb', name='E:/DownLoad/DCL/MILF1942 My Mother My Date 2.mp4', dirname='E:/DownLoad/DCL', noextn

1 Replies

请查阅相关文档：

Post Your Reply

Related resource