#2384 TaskCfg(cache_folder='D:/win-pyvideotrans-v3.92/tmp/1768/eb55046049', target_dir='d:/win-pyvideotrans-v3.92/output/recog

154.86* Posted at: 6 months ago

语音识别阶段出错 [faster-whisper(本地)] Traceback (most recent call last):
File "videotrans\process\_overall.py", line 229, in run
File "faster_whisper\transcribe.py", line 1851, in restore_speech_timestamps
File "faster_whisper\transcribe.py", line 586, in _batched_segments_generator
File "faster_whisper\transcribe.py", line 120, in forward
File "faster_whisper\transcribe.py", line 209, in generate_segment_batched
File "faster_whisper\transcribe.py", line 1400, in encode
RuntimeError: mkl_malloc: failed to allocate memory

Traceback (most recent call last):
File "videotrans\task\job.py", line 113, in run
File "videotrans\task\_speech2text.py", line 146, in recogn
File "videotrans\recognition\__init__.py", line 245, in run
File "videotrans\recognition\_base.py", line 80, in run
File "videotrans\recognition\_overall.py", line 182, in _exec
RuntimeError: Traceback (most recent call last):
File "videotrans\process\_overall.py", line 229, in run
File "faster_whisper\transcribe.py", line 1851, in restore_speech_timestamps
File "faster_whisper\transcribe.py", line 586, in _batched_segments_generator
File "faster_whisper\transcribe.py", line 120, in forward
File "faster_whisper\transcribe.py", line 209, in generate_segment_batched
File "faster_whisper\transcribe.py", line 1400, in encode
RuntimeError: mkl_malloc: failed to allocate memory

TaskCfg(cache_folder='D:/win-pyvideotrans-v3.92/tmp/1768/eb55046049', target_dir='d:/win-pyvideotrans-v3.92/output/recogn', remove_noise=False, is_separate=False, detect_language='ja', subtitle_language=None, source_language=None, target_language=None, source_language_code=None, target_language_code=None, source_sub=None, target_sub='d:/win-pyvideotrans-v3.92/output/recogn/中文perfumeと駄菓子屋さん！〜人気駄菓子top10を当てるまで帰れないかもしれまテン〜.h265.srt', source_wav=None, source_wav_output=None, target_wav=None, target_wav_output=None, subtitles=None, novoice_mp4=None, noextname='中文perfumeと駄菓子屋さん！〜人気駄菓子top10を当てるまで帰れないかもしれまテン〜.h265', shibie_audio='D:/win-pyvideotrans-v3.92/tmp/1768/eb55046049/中文perfumeと駄菓子屋さん！〜人気駄菓子top10を当てるまで帰れないかもしれまテン〜.h265-1767151878.078603.wav', targetdir_mp4=None, instrument=None, vocal=None, back_audio=None, background_music=None, app_mode='biaozhun', subtitle_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role=None, copysrt_rawvideo=False, clear_cache=False, translate_type=None, tts_type=None, recogn_type=0, model_name='large-v2', split_type=1, voice_autorate=False, video_autorate=False, cuda=False, name='D:/中文perfumeと駄菓子屋さん！〜人気駄菓子top10を当てるまで帰れないかもしれまテン〜.h265.mp4', basename='中文perfumeと駄菓子屋さん！〜人気駄菓子top10を当てるまで帰れないかもしれまテン〜.h265.mp4', ext='mp4', dirname='D:/', shound_del_name=None, uuid='eb55046049', remove_silent_mid=False, align_sub_audio=True, enable_diariz=False, nums_diariz=0, rephrase=0, only_out_mp4=False)

=
system:Windows-10-10.0.22631-SP0
version:v3.92
frozen:True
language:zh
root_dir:D:/win-pyvideotrans-v3.92

Floor #1 DeepSeek reply at 6 months ago

这个错误 RuntimeError: mkl_malloc: failed to allocate memory 表明系统内存（RAM）不足，导致 faster-whisper 在语音识别时无法分配足够的内存。从您的配置看，您使用了 large-v2 模型且未开启 CUDA 加速，这会在 CPU 上运行，对内存需求很高。

核心解决方案是降低内存占用或使用 GPU 加速：

（首选）启用 CUDA 加速：如果您有 NVIDIA 显卡，请务必在主界面第6行勾选 CUDA加速。这会将计算负载从内存转移到显存，极大缓解内存压力。
更换更小的语音识别模型：在主界面第2行，将模型从 large-v2 更换为 medium、small 或 tiny。模型越小，内存占用越低，速度越快，但识别精度会略有下降。
使用“批量推理”模式：您已经使用了 split_type=1（批量推理），这是正确的。请确保主界面第2行的“识别模式”选择为 批量推理。
调整高级参数（如果仍使用CPU）：
- 进入 菜单 -> 工具 -> 高级选项。
- 在 Faster/OpenAI/Whisper 语音识别微调 区域：
  - 将 beam_size 和 best_of 的值都改为 1（默认是5）。
  - 将 CUDA数据类型 改为 int8（即使使用CPU，此设置也可能影响内存分配策略）。
关闭其他占用内存的软件：在运行翻译任务时，暂时关闭浏览器、大型办公软件等，释放更多可用内存。
检查视频文件路径：您的视频文件名包含大量日文和特殊符号（！〜）。虽然软件可能已处理，但为排除干扰，建议将视频文件重命名为简单的英文或数字（如 test.mp4），并放在没有中文和特殊字符的路径下（如 D:/test.mp4），然后重新尝试。

操作优先级建议：首先尝试 第1步（启用CUDA） 或 第2步（换小模型），这通常能直接解决问题。如果问题依旧，再结合第4步调整参数。

#2384 TaskCfg(cache_folder='D:/win-pyvideotrans-v3.92/tmp/1768/eb55046049', target_dir='d:/win-pyvideotrans-v3.92/output/recog

1 Replies

请查看更多参考文档:

Post Your Reply

Related resource