#3843 TaskCfgVTT(is_cuda=False, uuid='cee73e8ca3', cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/18876/

103.172* Posted at: 3 months ago

语音识别阶段出错 [faster-whisper(本地)] Traceback (most recent call last):
File "videotrans\process\stt_fun.py", line 346, in faster_whisper
File "faster_whisper\transcribe.py", line 689, in init
ValueError: Requested int8_float16 compute type, but the target device or backend do not support efficient int8_float16 computation.

Traceback (most recent call last):
File "videotrans\task\job.py", line 105, in run
File "videotrans\task\trans_create.py", line 360, in recogn
File "videotrans\recognition\__init__.py", line 272, in run
File "videotrans\recognition\_base.py", line 143, in run
File "videotrans\recognition\_overall.py", line 33, in _exec
File "videotrans\recognition\_overall.py", line 105, in _faster
File "videotrans\configure\_base.py", line 289, in _new_process
RuntimeError: Traceback (most recent call last):
File "videotrans\process\stt_fun.py", line 346, in faster_whisper
File "faster_whisper\transcribe.py", line 689, in init
ValueError: Requested int8_float16 compute type, but the target device or backend do not support efficient int8_float16 computation.
TaskCfgVTT(is_cuda=False, uuid='cee73e8ca3', cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/18876/cee73e8ca3', target_dir='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny_MP3-mp3', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny_MP3-mp3/th.srt', source_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/18876/cee73e8ca3/th.wav', source_wav_output='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny_MP3-mp3/th.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny_MP3-mp3/zh-cn.srt', target_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/18876/cee73e8ca3/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny_MP3-mp3/zh-cn.m4a', name='C:/Users/lsl/Downloads/Namnung and Sunny tiktok live #namnung #sunny_MP3.mp3', noextname='Namnung and Sunny tiktok live #namnung #sunny_MP3', basename='Namnung and Sunny tiktok live #namnung #sunny_MP3.mp3', ext='mp3', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='th', recogn_type=0, model_name='large-v3', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny_MP3-mp3/Namnung and Sunny tiktok live #namnung #sunny_MP3.mp4', novoice_mp4='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/18876/cee73e8ca3/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)

=
system:Windows-10-10.0.22631-SP0
version:v3.98
frozen:True
language:zh
root_dir:D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327

Floor #1 DeepSeek reply at 3 months ago

这是由于在语音识别阶段，faster-whisper 模型尝试使用 int8_float16 计算类型，但您的硬件或CUDA环境不支持该模式导致的。

解决方案：

修改 CUDA 数据类型设置：在软件顶部菜单栏，点击 工具/选项 -> 高级选项。在“语音识别参数”区域，找到 CUDA数据类型 选项，将其从 int8_float16 或 int8 修改为 float16 或 default。
检查 CUDA 环境：确保您已正确安装 NVIDIA 显卡驱动、CUDA 12.8 和 cuDNN 9.x 或更高版本。在 CMD 中输入 nvcc -V 和 nvidia-smi 验证。
禁用 CUDA 加速：如果修改数据类型后问题依旧，或您没有 NVIDIA 显卡，请返回软件主界面，取消勾选右上角的 CUDA加速 复选框，完全使用 CPU 进行识别（速度会变慢）。

请查阅相关文档：

windows上安装CUDA12.8和cuDNN9.11

Floor #2 103.172* reply at 3 months ago

default我是这个嘞

Floor #3 DeepSeek reply at 3 months ago

错误原因是 CUDA 数据类型设置为了 int8_float16，但您的硬件或CUDA环境不支持该计算类型。

解决方案：

在软件顶部菜单栏，点击 工具/选项 -> 高级选项。
在“语音识别参数”区域，找到 CUDA数据类型 选项。
将其从 int8_float16 修改为 float16 或 default。
保存设置并重试。

如果问题依旧，请检查您的CUDA环境是否安装正确（需要CUDA 12.8和cuDNN 9.x），或者暂时在主界面取消勾选 CUDA加速 以使用CPU模式。

请查阅相关文档：

windows上安装CUDA12.8和cuDNN9.11

Floor #4 103.172* reply at 3 months ago

Application started at 2026-03-28 20:13:12

First searching GPU...
[DEBUG] 平台: Windows。正在按优先级检测最佳的 'h264' 编码器: ['nvenc', 'qsv', 'amf']
[DEBUG] 正在测试编码器是否可用: h264_nvenc...
NVIDIA_GPU_NUMS=1
Found 1 GPUs, cost=3s
start workers...
process_max_gpu=1
multi_gpus=False
Concurrent task_nums=1
process_max=1
start 9 jobs
ended workers
[DEBUG] 硬件编码器 'h264_nvenc' 可用。
[DEBUG] 已选择硬件编码器: h264_nvenc
[DEBUG] 最终确定使用的编码器: h264_nvenc
[DEBUG] 平台: Windows。正在按优先级检测最佳的 'hevc' 编码器: ['nvenc', 'qsv', 'amf']
[DEBUG] 正在测试编码器是否可用: hevc_nvenc...
[DEBUG] 硬件编码器 'hevc_nvenc' 可用。
[DEBUG] 已选择硬件编码器: hevc_nvenc
[DEBUG] 最终确定使用的编码器: hevc_nvenc
[DEBUG] 最终配置信息：self.cfg=TaskCfgVTT(is_cuda=True, uuid='824da446a1', cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/31556/824da446a1', target_dir='C:/Users/lsl/Downloads/_video_out/nasu-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.srt', source_wav='D:/BaiduNetdiskDow
......
me='large-v3',Traceback (most recent call last):
File "videotrans\process\stt_fun.py", line 452, in faster_whisper
File "faster_whisper\transcribe.py", line 1851, in restore_speech_timestamps
File "faster_whisper\transcribe.py", line 1213, in generate_segments
File "faster_whisper\transcribe.py", line 1446, in generate_with_fallback
RuntimeError: mkl_malloc: failed to allocate memory
Traceback (most recent call last):
File "videotrans\process\stt_fun.py", line 452, in faster_whisper
File "faster_whisper\transcribe.py", line 1851, in restore_speech_timestamps
File "faster_whisper\transcribe.py", line 1213, in generate_segments
File "faster_whisper\transcribe.py", line 1446, in generate_with_fallback
RuntimeError: mkl_malloc: failed to allocate memory
[DEBUG] 最终配置信息：self.cfg=TaskCfgVTT(is_cuda=False, uuid='d79aa73f29', cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/18876/d79aa73f29', target_dir='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny_MP3-mp3', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny_MP3-mp3/th.srt', source_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/18876/d79aa73f29/th.wav', source_wav_output='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny_MP3-mp3/th.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny_MP3-mp3/zh-cn.srt', target_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/18876/d79aa73f29/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny_MP3-mp3/zh-cn.m4a', name='C:/Users/lsl/Downloads/Namnung and Sunny tiktok live #namnung #sunny_MP3.mp3', noextname='Namnung and Sunny tiktok live #namnung #sunny_MP3', basename='Namnung and Sunny tiktok live #namnung #sunny_MP3.mp3', ext='mp3', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='th', recogn_type=0, model_name='large-v3', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny_MP3-mp3/Namnung and Sunny tiktok live #namnung #sunny_MP3.mp4', novoice_mp4='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/18876/d79aa73f29/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)
[DEBUG] faster-whisper模式下，对large-v3模型返回的断句结果重新修正
为什么语音识别就是弄不出来

Floor #5 DeepSeek reply at 3 months ago

这是由于内存不足导致的。您使用了 large-v3 模型进行语音识别，该模型对内存/显存要求较高，在处理时因分配内存失败而报错。解决方案：更换为更小的模型：在主界面的“语音识别”行，将模型从 large-v3 更换为 medium、small 或 base。降低识别精度设置以节省内存：在菜单-工具-高级选项的“语音识别参数”区域，进行以下调整：将 识别准确度beam_size 从 5 改为 1。将 识别准确度best_of 从 5 改为 1。将 CUDA数据类型 设为 float16 或 default。取消勾选 启用上下文感知。如果启用了 CUDA 加速但显存不足，请尝试在主界面取消勾选 CUDA加速，改用 CPU 识别。关闭其他占用大量内存的软件，释放系统资源。请查阅相关文档：总是提示显存不足

#3843 TaskCfgVTT(is_cuda=False, uuid='cee73e8ca3', cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/18876/

5 Replies

请查阅相关文档：

请查阅相关文档：

Post Your Reply

Related resource