#3315 TaskCfg(cache_folder='D:/Program Files/win-pyvideotrans-v3.97/tmp/16984/275a38663f', target_dir='D:/绿色软件/win-pyvideotran

120.211* Posted at: 4 months ago

语音识别阶段出错 [faster-whisper(本地)] Traceback (most recent call last):
File "videotrans\process\stt_fun.py", line 225, in faster_whisper
File "faster_whisper\transcribe.py", line 515, in transcribe
File "numpy\core\shape_base.py", line 456, in stack
numpy.core._exceptions._ArrayMemoryError: Unable to allocate 875. MiB for an array with shape (597, 128, 3000) and data type float32

Traceback (most recent call last):
File "videotrans\task\job.py", line 106, in run
File "videotrans\task\_speech2text.py", line 156, in recogn
File "videotrans\recognition\__init__.py", line 268, in run
File "videotrans\recognition\_base.py", line 141, in run
File "videotrans\recognition\_overall.py", line 63, in _exec
File "videotrans\recognition\_overall.py", line 142, in _faster
File "videotrans\configure\_base.py", line 291, in _new_process
RuntimeError: Traceback (most recent call last):
File "videotrans\process\stt_fun.py", line 225, in faster_whisper
File "faster_whisper\transcribe.py", line 515, in transcribe
File "numpy\core\shape_base.py", line 456, in stack
numpy.core._exceptions._ArrayMemoryError: Unable to allocate 875. MiB for an array with shape (597, 128, 3000) and data type float32
TaskCfg(cache_folder='D:/Program Files/win-pyvideotrans-v3.97/tmp/16984/275a38663f', target_dir='D:/绿色软件/win-pyvideotrans-v3.97/output/recogn', remove_noise=False, is_separate=False, detect_language='en', subtitle_language=None, source_language=None, target_language=None, source_language_code=None, target_language_code=None, source_sub=None, target_sub='D:/绿色软件/win-pyvideotrans-v3.97/output/recogn/02 qqqqq.srt', source_wav=None, source_wav_output=None, target_wav=None, target_wav_output=None, subtitles='', novoice_mp4=None, noextname='qqqqq', shibie_audio='D:/Program Files/win-pyvideotrans-v3.97/tmp/16984/275a38663f/02 qqqqq-1771764413.6966758.wav', targetdir_mp4=None, instrument=None, vocal=None, back_audio=None, background_music=None, app_mode='biaozhun', subtitle_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role=None, copysrt_rawvideo=False, clear_cache=False, translate_type=None, tts_type=None, recogn_type=0, model_name='large-v3', voice_autorate=False, video_autorate=False, is_cuda=False, name='D:/Downloads/qqqqq.mp4', basename='qqqqq.mp4', ext='mp4', dirname='D:/Downloads/qqqqq', shound_del_name=None, uuid='275a38663f', remove_silent_mid=False, align_sub_audio=True, enable_diariz=True, nums_diariz=0, rephrase=0, only_out_mp4=False, fix_punc=False, recogn2pass=False)

=
system:Windows-10-10.0.19045-SP0
version:v3.97
frozen:True
language:zh
root_dir:D:/Program Files/win-pyvideotrans-v3.97

Floor #1 DeepSeek reply at 4 months ago

这是由于系统内存（RAM）不足，导致 faster-whisper 在处理音频时无法分配所需的大数组（875 MiB）而报错。

解决方案：

降低模型精度：在“语音识别参数”中，将“模型精度”从 float32 改为 int8。这会显著减少内存占用，但可能略微影响识别精度。
使用更小的模型：将“模型”从 large-v3 更换为 medium 或 small。小模型对内存和显存的要求更低。
关闭说话人分离：从日志中看到 enable_diariz=True。在“高级选项” -> “语音识别参数”中，关闭“说话人分离”功能。此功能会显著增加内存消耗。
检查并释放系统内存：关闭其他占用大量内存的应用程序（如浏览器、大型软件），确保有足够的可用物理内存。
（如果可用）启用GPU加速：日志中显示 is_cuda=False。如果你有 NVIDIA 显卡，请安装 CUDA 12.8 和 cuDNN 9.x，然后在“语音识别参数”中开启“CUDA加速”。GPU 加速会将计算负载从内存转移到显存。

操作步骤参考：

打开软件，进入“语音识别参数”设置。
将“模型”改为 medium。
将“模型精度”改为 int8。
关闭“说话人分离”。
保存设置后重新尝试识别任务。

请查阅相关文档：

语音识别模型分类与说明
常见错误与解决方法
总是提示显存不足 (虽然标题是显存，但内存不足的解决方法类似)

#3315 TaskCfg(cache_folder='D:/Program Files/win-pyvideotrans-v3.97/tmp/16984/275a38663f', target_dir='D:/绿色软件/win-pyvideotran

1 Replies

请查阅相关文档：

Post Your Reply

Related resource