#3845 TaskCfgVTT(is_cuda=True, uuid='c7da408aba', cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/21096/c

103.172* Posted at: 3 months ago

语音识别阶段出错 [faster-whisper(本地)] 出错了，可能内存或显存不足 Model:large-v3 GPU0
Traceback (most recent call last):
File "videotrans\configure\_base.py", line 285, in _new_process
File "concurrent\futures\_base.py", line 458, in result
File "concurrent\futures\_base.py", line 403, in __get_result
concurrent.futures.process.BrokenProcessPool: A process in the process pool was terminated abruptly while the future was running or pending.

Traceback (most recent call last):
File "videotrans\configure\_base.py", line 285, in _new_process
File "concurrent\futures\_base.py", line 458, in result
File "concurrent\futures\_base.py", line 403, in __get_result
concurrent.futures.process.BrokenProcessPool: A process in the process pool was terminated abruptly while the future was running or pending.

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
File "videotrans\task\job.py", line 105, in run
File "videotrans\task\trans_create.py", line 360, in recogn
File "videotrans\recognition\__init__.py", line 272, in run
File "videotrans\recognition\_base.py", line 143, in run
File "videotrans\recognition\_overall.py", line 33, in _exec
File "videotrans\recognition\_overall.py", line 105, in _faster
File "videotrans\configure\_base.py", line 303, in _new_process
RuntimeError: 出错了，可能内存或显存不足 Model:large-v3 GPU0
Traceback (most recent call last):
File "videotrans\configure\_base.py", line 285, in _new_process
File "concurrent\futures\_base.py", line 458, in result
File "concurrent\futures\_base.py", line 403, in __get_result
concurrent.futures.process.BrokenProcessPool: A process in the process pool was terminated abruptly while the future was running or pending.
TaskCfgVTT(is_cuda=True, uuid='c7da408aba', cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/21096/c7da408aba', target_dir='nasu-mp4', source_language='泰国语', source_language_code='th', source_sub='nasu-mp4/th.srt', source_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/21096/c7da408aba/th.wav', source_wav_output='nasu-mp4/th.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='nasu-mp4/zh-cn.srt', target_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/21096/c7da408aba/target.wav', target_wav_output='nasu-mp4/zh-cn.m4a', name='C:/Users/lsl/Downloads/nasu.mp4', noextname='nasu', basename='nasu.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='th', recogn_type=0, model_name='large-v3', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='nasu-mp4/nasu.mp4', novoice_mp4='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/21096/c7da408aba/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)

=
system:Windows-10-10.0.22631-SP0
version:v3.98
frozen:True
language:zh
root_dir:D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327

Floor #1 DeepSeek reply at 3 months ago

这是显存不足导致的错误。您使用了 faster-whisper(本地) 的 large-v3 模型，该模型至少需要 10GB 显存。当显存不足时，进程会被系统强制终止，导致 BrokenProcessPool 错误。

解决方案：

更换更小的模型：在语音识别设置中，将模型从 large-v3 更换为 medium、small 或 base。medium 模型是效果和资源消耗的较好平衡点。
调整高级设置以降低显存占用：进入 菜单 -> 工具 -> 高级选项，在“语音识别参数”区域进行如下修改：
- CUDA数据类型：将 float32 改为 float16 或 int8。
- 识别准确度beam_size：将 5 改为 1。
- 识别准确度best_of：将 5 改为 1。
- 启用上下文感知：确保此项为 false（不勾选）。
检查并关闭二次识别：在主界面右上角，确保“二次识别”选项未被勾选。如果同时处理多个视频，二次识别会占用额外显存。
确认显卡和CUDA环境：确保您的NVIDIA显卡驱动已更新，并正确安装了CUDA 12.8和cuDNN。在CMD中运行 nvidia-smi 可以查看可用显存。

请查阅相关文档：

Floor #2 103.172* reply at 3 months ago

如何看我的显存有没有10GB,是内存吗

Floor #3 DeepSeek reply at 3 months ago

显存是显卡专用的内存，不是电脑的系统内存。查看显存大小的方法如下：

使用任务管理器（推荐）：
- 在Windows任务栏空白处点击右键，选择“任务管理器”。
- 切换到“性能”选项卡。
- 在左侧列表中找到“GPU 0”（或 GPU 1 等），右侧会显示“专用GPU内存”。这个数值就是您的显存大小。例如，“4.0 GB”或“8.0 GB”。
使用命令行工具：
- 按 Win + R 键，输入 cmd 并回车，打开命令提示符。
- 输入命令 nvidia-smi 并回车。
- 在输出的表格中，找到“Memory Usage”一栏，其中“Total”后面的数值就是您的总显存大小（单位是MiB，1024 MiB ≈ 1 GB）。

重要区别：

显存：是显卡（GPU）上专用的高速内存，用于处理图形和AI计算（如本软件的语音识别）。large-v3 模型需要的是显存。
内存：是电脑的系统内存（RAM），由CPU使用。如果软件提示“内存不足”，指的是系统内存。

如果您的显存小于10GB（例如只有4GB或6GB），则无法运行 large-v3 模型，必须按照上一条回复的步骤，更换为更小的模型（如 medium）。

请查阅相关文档：

总是提示显存不足

Floor #4 103.172* reply at 3 months ago

C:\Users\lsl>nvidia-smi
Sun Mar 29 00:37:05 2026
+

-+
| NVIDIA-SMI 581.80 Driver Version: 581.80 CUDA Version: 13.0 |
+

-+

+

=+

+

==|
| 0 NVIDIA GeForce RTX 3060 ... WDDM | 00000000:01:00.0 On | N/A |
| N/A 55C P0 27W / 107W | 938MiB / 6144MiB | 1% Default |
| | | N/A |
+

-+

+

--+

+

=|
| 0 N/A N/A 1528 C+G ....0.3856.84\msedgewebview2.exe N/A |
| 0 N/A N/A 4212 C+G ...xyewy\ShellExperienceHost.exe N/A |
| 0 N/A N/A 8572 C+G ...6hy\Build\Plugins\Mpv\mpv.exe N/A |
| 0 N/A N/A 8816 C+G ...ntrolPanel\SystemSettings.exe N/A |
| 0 N/A N/A 12700 C+G ...11.28973.206\QQPCExternal.exe N/A |
| 0 N/A N/A 13108 C+G ...D\CNext\CNext\AMDRSSrcExt.exe N/A |
| 0 N/A N/A 13136 C+G C:\Windows\explorer.exe N/A |
| 0 N/A N/A 14748 C+G ...y\StartMenuExperienceHost.exe N/A |
| 0 N/A N/A 15024 C+G ..._cw5n1h2txyewy\SearchHost.exe N/A |
| 0 N/A N/A 16300 C+G ...ogram Files\ToDesk\ToDesk.exe N/A |
| 0 N/A N/A 16468 C+G ...ffice6\promecefpluginhost.exe N/A |
| 0 N/A N/A 17144 C+G ...mba6cd70vzyy\ArmouryCrate.exe N/A |
| 0 N/A N/A 17652 C+G ...rive Mount\RaiDrive.Mount.exe N/A |
| 0 N/A N/A 19100 C+G ...a09mmv6hy\Lively.UI.WinUI.exe N/A |
| 0 N/A N/A 19440 C+G ...les\AweSun\flutter\AweSun.exe N/A |
| 0 N/A N/A 19568 C+G ...5n1h2txyewy\TextInputHost.exe N/A |
| 0 N/A N/A 20108 C+G ...acted\runtime\WeChatAppEx.exe N/A |
| 0 N/A N/A 20884 C+G ...t\Edge\Application\msedge.exe N/A |
| 0 N/A N/A 21040 C+G ...11.28973.206\QQPCExternal.exe N/A |
| 0 N/A N/A 21364 C+G ...8bbwe\PhoneExperienceHost.exe N/A |
| 0 N/A N/A 22440 C+G ...7hta09mmv6hy\Build\Lively.exe N/A |
| 0 N/A N/A 23420 C+G ...Next\CNext\RadeonSoftware.exe N/A |
| 0 N/A N/A 23708 C+G ....0.3856.84\msedgewebview2.exe N/A |
| 0 N/A N/A 25144 C+G ...t\Edge\Application\msedge.exe N/A |
| 0 N/A N/A 27968 C+G ...yb3d8bbwe\WindowsTerminal.exe N/A |
+

-+

Floor #5 DeepSeek reply at 3 months ago

您的显存是 6GB（6144 MiB），远低于运行 large-v3 模型所需的 10GB。这是导致“显存不足”错误的直接原因。解决方案：更换更小的语音识别模型：在软件主界面的语音识别设置中，将模型从 large-v3 更换为 medium 或 small。对于泰语识别，medium 模型通常效果较好。调整高级设置以进一步降低显存占用：进入菜单 -> 工具 -> 高级选项，在“语音识别参数”区域进行如下修改：CUDA数据类型：将 float32 改为 float16 或 int8。识别准确度beam_size：将 5 改为 1。识别准确度best_of：将 5 改为 1。启用上下文感知：确保此项为 false（不勾选）。关闭二次识别：在主界面右上角，确保“二次识别”选项未被勾选。如果以上调整后仍报错，请尝试使用更小的模型（如 small 或 base）。请查阅相关文档：总是提示显存不足

Floor #6 103.172* reply at 3 months ago

Traceback (most recent call last):
File "videotrans\task\job.py", line 105, in run
File "videotrans\task\trans_create.py", line 360, in recogn
File "videotrans\recognition\__init__.py", line 272, in run
File "videotrans\recognition\_base.py", line 143, in run
File "videotrans\recognition\_overall.py", line 33, in _exec
File "videotrans\recognition\_overall.py", line 105, in _faster
File "videotrans\configure\_base.py", line 303, in _new_process
RuntimeError: 出错了，可能内存或显存不足 Model:large-v3 GPU0
Traceback (most recent call last):
File "videotrans\configure\_base.py", line 285, in _new_process
File "concurrent\futures\_base.py", line 458, in result
File "concurrent\futures\_base.py", line 403, in __get_result
concurrent.futures.process.BrokenProcessPool: A process in the process pool was terminated abruptly while the future was running or pending.

[DEBUG] 最终配置信息：self.cfg=TaskCfgVTT(is_cuda=True, uuid='f6e6a1a3b8', cache_folder='D:/BaiduNetdiskDownload/win
......
ame=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='th', recogn_type=0, model_name='medium', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/nasu-mp4/nasu.mp4', novoice_mp4='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/21096/f6e6a1a3b8/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)

[DEBUG] [recognition]__init__:kwargs={'detect_language': 'th', 'audio_file': 'D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/21096/f6e6a1a3b8/th.wav', 'cache_folder': 'D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/21096/f6e6a1a3b8', 'model_name': 'medium', 'uuid': 'f6e6a1a3b8', 'is_cuda': True, 'subtitle_type': 0, 'recogn_type': 0, 'max_speakers': -1, 'llm_post': False, 'recogn2pass': False}
[DEBUG] BaseRecogn 初始化
[DEBUG] 最终配置信息：self.cfg=TaskCfgVTT(is_cuda=True, uuid='dc0cf24d74', cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/21096/dc0cf24d74', target_dir='C:/Users/lsl/Downloads/_video_out/nasu-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.srt', source_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/21096/dc0cf24d74/th.wav', source_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.srt', target_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/21096/dc0cf24d74/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.m4a', name='C:/Users/lsl/Downloads/nasu.mp4', noextname='nasu', basename='nasu.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='th', recogn_type=0, model_name='medium', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/nasu-mp4/nasu.mp4', novoice_mp4='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/21096/dc0cf24d74/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)已经改成medium了，为什么还是没有语音识别啊

Floor #7 DeepSeek reply at 3 months ago

错误信息显示模型仍然是 Model:large-v3，但您的配置中 model_name='medium'。这表明软件可能仍在尝试加载之前缓存或错误的模型文件。

强制清理缓存：在主界面左上角，确保 清理已生成 复选框已被勾选。这将强制软件重新下载或加载新的模型，而不是使用旧的缓存。
手动删除模型缓存：关闭软件，然后进入软件安装目录下的 models 文件夹。查找并删除名为 models--Systran--faster-whisper-large-v3 的文件夹（如果存在）。这可以确保软件不会错误地加载旧的大模型。
验证模型下载：重新启动软件，确保语音识别渠道选择 faster-whisper(本地)，模型选择 medium。首次使用 medium 模型时，软件会重新下载。请确保网络连接正常，或参考知识库手动下载 medium 模型。
检查高级设置：进入 菜单 -> 工具 -> 高级选项，在“语音识别参数”区域，确认 faster/whisper模型 列表中包含 medium。同时，将 CUDA数据类型 改为 float16，beam_size 和 best_of 都设为 1。
检查任务管理器：在处理过程中，打开任务管理器，查看“GPU 0”的“专用GPU内存”使用情况。如果使用量接近或达到6GB，说明 medium 模型在您的视频上可能仍然负载过高。如果再次报错，请尝试更换为更小的 small 模型。

请查阅相关文档：

Floor #8 103.172* reply at 3 months ago

用largeV3-trud在这个可以不，或者用largeV2

Floor #9 DeepSeek reply at 3 months ago

可以，但 large-v3-turbo 和 large-v2 模型对显存的需求与 large-v3 相近，仍然很可能超过您 6GB 的显存。建议的优先级如下：首选 medium 模型：这是最适合您 6GB 显存的模型，效果和资源消耗平衡最佳。如果 medium 模型仍报错，请按以下步骤操作：强制清理缓存：在主界面左上角，确保清理已生成复选框已被勾选。手动删除旧模型缓存：关闭软件，进入软件安装目录下的 models 文件夹，删除任何名称中包含 large-v3 或 large-v2 的文件夹（例如 models--Systran--faster-whisper-large-v3）。调整高级设置：进入菜单 -> 工具 -> 高级选项，在“语音识别参数”区域进行如下修改：CUDA数据类型：确保已改为 float16 或 int8。识别准确度beam_size：确保已改为 1。识别准确度best_of：确保已改为 1。启用上下文感知：确保此项为 false（不勾选）。如果 medium 模型经过以上调整后仍然失败，请直接降级到 small 模型。small 模型对显存要求更低，是确保在 6GB 显存下稳定运行的最可靠选择。请查阅相关文档：总是提示显存不足手动下载适用于 faster-whisper(本地) 语音识别渠道的模型

Floor #10 103.172* reply at 3 months ago

Application started at 2026-03-29 00:51:58

First searching GPU...
[DEBUG] 平台: Windows。正在按优先级检测最佳的 'h264' 编码器: ['nvenc', 'qsv', 'amf']
[DEBUG] 正在测试编码器是否可用: h264_nvenc...
NVIDIA_GPU_NUMS=1
Found 1 GPUs, cost=3s
start workers...
process_max_gpu=1
multi_gpus=False
Concurrent task_nums=1
process_max=1
start 9 jobs
ended workers
[DEBUG] 硬件编码器 'h264_nvenc' 可用。
[DEBUG] 已选择硬件编码器: h264_nvenc
[DEBUG] 最终确定使用的编码器: h264_nvenc
[DEBUG] 平台: Windows。正在按优先级检测最佳的 'hevc' 编码器: ['nvenc', 'qsv', 'amf']
[DEBUG] 正在测试编码器是否可用: hevc_nvenc...
[DEBUG] 硬件编码器 'hevc_nvenc' 可用。
[DEBUG] 已选择硬件编码器: hevc_nvenc
[DEBUG] 最终确定使用的编码器: hevc_nvenc
[DEBUG] 最终配置信息：self.cfg=TaskCfgVTT(is_cuda=True, uuid='f79a3b1356', cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/27412/f79a3b1356', target_dir='C:/Users/lsl/Downloads/_video_out/nasu-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.srt', source_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/27412/f79a3b1356/th.wav', source_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.srt', target_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/27412/f79a3b1356/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.m4a', name='C:/Users/lsl/Downloads/nasu.mp4', noextname='nasu', basename='nasu.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=False, detect_language='th', recogn_type=0, model_name='large-v3-turbo', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/nasu-mp4/nasu.mp4', novoice_mp4='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/27412/f79a3b1356/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)
[DEBUG] [job] 进入执行语音识别阶段 trk.cfg=TaskCfgVTT(is_cuda=True, uuid='f79a3b1356', cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/27412/f79a3b1356', target_dir='C:/Users/lsl/Downloads/_video_out/nasu-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.srt', source_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/27412/f79a3b1356/th.wav', source_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.srt', target_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/27412/f79a3b1356/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.m4a', name='C:/Users/lsl/Downloads/nasu.mp4', noextname='nasu', basename='nasu.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=False, detect_language='th', recogn_type=0, model_name='large-v3-turbo', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/nasu-mp4/nasu.mp4', novoice_mp4='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/27412/f79a3b1356/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)

[DEBUG] [recognition]__init__:kwargs={'detect_language': 'th', 'audio_file': 'D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/27412/f79a3b1356/th.wav', 'cache_folder': 'D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/27412/f79a3b1356', 'model_name': 'large-v3-turbo', 'uuid': 'f79a3b1356', 'is_cuda': True, 'subtitle_type': 0, 'recogn_type': 0, 'max_speakers': -1, 'llm_post': False, 'recogn2pass': False}
[DEBUG] BaseRecogn 初始化
这个可以吗。就是加载有些慢，

Floor #11 DeepSeek reply at 3 months ago

日志显示您正在使用 large-v3-turbo 模型。该模型对显存的需求与 large-v3 相近，对于您 6GB 的显存来说仍然过高，极有可能在处理过程中因显存不足而崩溃。加载慢是正常的，因为模型较大，但加载成功不代表后续计算能顺利完成。为了确保任务成功完成，强烈建议您更换为更小的模型。具体操作：在主界面的语音识别设置中，将模型从 large-v3-turbo 更换为 medium 或 small。对于泰语识别，medium 模型是效果和稳定性的最佳平衡点。如果更换后仍报错，请执行以下步骤：强制清理缓存：确保主界面左上角的清理已生成复选框已被勾选。手动删除旧模型缓存：关闭软件，进入软件安装目录下的 models 文件夹，删除名称中包含 large-v3-turbo 或 large-v3 的文件夹（例如 models--mobiuslabsgmbh--faster-whisper-large-v3-turbo）。调整高级设置：进入菜单 -> 工具 -> 高级选项，在“语音识别参数”区域，将 CUDA数据类型 改为 float16，beam_size 和 best_of 都设为 1。如果以上操作后 medium 模型仍然失败，请直接使用 small 模型。这是确保在 6GB 显存下稳定运行的最可靠选择。请查阅相关文档：总是提示显存不足手动下载适用于 faster-whisper(本地) 语音识别渠道的模型

Floor #12 103.172* reply at 3 months ago

beam_size 和 best_of 都设为 1这些都改成1的化，准确度是不是会不高

Floor #13 DeepSeek reply at 3 months ago

是的，将 beam_size 和 best_of 都设为 1 会略微降低识别准确度，但这是为了在显存有限的情况下确保任务能够成功运行的必要妥协。在您 6GB 显存的硬件条件下，这是平衡稳定性和效果的可行方案。为了尽可能弥补准确度的损失，您可以采取以下措施：使用 medium 模型：medium 模型本身的基础准确度就比 small 或 base 高，即使 beam_size 和 best_of 设为 1，其效果通常也优于 small 模型设为 5。明确指定发音语言：确保“发音语言”正确设置为“泰国语”，这能帮助模型更精准地识别。开启降噪：如果视频背景有噪音，可以勾选“降噪”选项。调整 VAD 参数：在菜单 -> 工具 -> 高级选项的“语音识别参数”区域，可以尝试将“语音阈值”设为 0.5，“最长语音持续秒数”设为 6，“静音分割持续毫秒”设为 500。这些是推荐的默认值，有助于提高分段准确性。如果任务能成功运行但您对识别结果不满意，可以再尝试将 beam_size 或 best_of 缓慢提高到 2 或 3，同时密切监控任务管理器中的显存使用量，确保不超过 6GB。请查阅相关文档：总是提示显存不足语音识别中的VAD参数调整

Floor #14 103.172* reply at 3 months ago

Application started at 2026-03-29 01:01:10

First searching GPU...
[DEBUG] 返回缓存的编解码器 Windows-264: h264_nvenc
[DEBUG] 返回缓存的编解码器 Windows-265: hevc_nvenc
NVIDIA_GPU_NUMS=1
Found 1 GPUs, cost=3s
start workers...
process_max_gpu=1
multi_gpus=False
Concurrent task_nums=1
process_max=1
start 9 jobs
ended workers
[DEBUG] 最终配置信息：self.cfg=TaskCfgVTT(is_cuda=True, uuid='93982dea4f', cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f', target_dir='C:/Users/lsl/Downloads/_video_out/nasu-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.srt', source_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f/th.wav', source_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.srt', target_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.m4a', name='C:/Users/lsl/Downloads/nasu.mp4', noextname='nasu', basename='nasu.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=False, detect_language='th', recogn_type=0, model_name='medium', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/nasu-mp4/nasu.mp4', novoice_mp4='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)
[DEBUG] [job] 进入执行语音识别阶段 trk.cfg=TaskCfgVTT(is_cuda=True, uuid='93982dea4f', cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f', target_dir='C:/Users/lsl/Downloads/_video_out/nasu-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.srt', source_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f/th.wav', source_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.srt', target_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.m4a', name='C:/Users/lsl/Downloads/nasu.mp4', noextname='nasu', basename='nasu.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=False, detect_language='th', recogn_type=0, model_name='medium', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/nasu-mp4/nasu.mp4', novoice_mp4='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)

[DEBUG] [recognition]__init__:kwargs={'detect_language': 'th', 'audio_file': 'D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f/th.wav', 'cache_folder': 'D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f', 'model_name': 'medium', 'uuid': '93982dea4f', 'is_cuda': True, 'subtitle_type': 0, 'recogn_type': 0, 'max_speakers': -1, 'llm_post': False, 'recogn2pass': False}
[DEBUG] BaseRecogn 初始化

Floor #15 DeepSeek reply at 3 months ago

配置已正确设置为 medium 模型。日志显示软件已开始初始化识别模块，这是一个正常启动的迹象。现在需要观察后续是否会出现显存不足的错误。如果任务成功开始处理，请耐心等待。medium 模型在 6GB 显存下运行是可行的，尤其是在您已将 beam_size 和 best_of 设为 1 的情况下。如果后续再次出现“显存不足”或“BrokenProcessPool”错误，请按以下步骤操作：更换为 small 模型：这是最保守但最稳定的选择，确保在 6GB 显存下成功运行。检查并关闭其他占用显存的程序：在任务处理期间，尽量减少其他使用 GPU 的应用程序（如游戏、浏览器、视频播放器），以释放更多显存供软件使用。监控显存使用：在处理过程中，打开任务管理器，切换到“性能”选项卡，查看“GPU 0”的“专用GPU内存”使用量。如果使用量持续接近 6GB，则 small 模型是唯一可靠的选择。如果任务成功完成，但您对识别准确度不满意，可以在后续尝试中，在确保显存充足的前提下，将 beam_size 或 best_of 缓慢提高到 2。请查阅相关文档：总是提示显存不足

Floor #16 103.172* reply at 3 months ago

medium这个beam_size 或 best_of 缓慢提高到 5吗？，或者不提高这个用large-v3-turbo

Floor #17 DeepSeek reply at 3 months ago

不建议将 beam_size 或 best_of 提高到 5，也不建议换回 large-v3-turbo。原因如下：显存限制：您的显卡只有 6GB 显存。medium 模型在 beam_size/best_of=5 时，显存占用会显著增加，极有可能再次触发显存不足错误。large-v3-turbo 模型本身就需要约 10GB 显存，在您的硬件上根本无法正常运行。优化建议：在 medium 模型且 beam_size/best_of=1 的设置下，先让任务成功运行一次。如果成功完成但识别结果不理想，可以尝试进行微调，而不是大幅提高参数：优先调整 VAD 参数：在菜单 -> 工具 -> 高级选项的“语音识别参数”区域，尝试调整“语音阈值”（例如 0.3 到 0.5）、“最长语音持续秒数”（例如 6）和“静音分割持续毫秒”（例如 500），这有助于改善字幕分段，可能比提高 beam_size 效果更明显。谨慎提高 beam_size：如果必须提高，可以尝试将 beam_size 从 1 提高到 2，同时密切监控任务管理器中的显存使用量。如果显存使用未超过 5.5GB 且任务成功，再考虑是否提高到 3。切勿直接提高到 5。考虑使用专门的小语种模型：对于泰语识别，您可以尝试知识库中提到的其他渠道，例如“阿里百炼 Qwen3-ASR”（在线API，可能需要付费）或“Gemini大模型识别”（在线API），这些可能对泰语有更好的支持，且不依赖本地显存。请查阅相关文档：总是提示显存不足语音识别中的VAD参数调整使用 Gemini AI 进行语音识别

Floor #18 103.172* reply at 3 months ago

Application started at 2026-03-29 01:01:10

First searching GPU...
[DEBUG] 返回缓存的编解码器 Windows-264: h264_nvenc
[DEBUG] 返回缓存的编解码器 Windows-265: hevc_nvenc
NVIDIA_GPU_NUMS=1
Found 1 GPUs, cost=3s
start workers...
process_max_gpu=1
multi_gpus=False
Concurrent task_nums=1
process_max=1
start 9 jobs
ended workers
[DEBUG] 最终配置信息：self.cfg=TaskCfgVTT(is_cuda=True, uuid='93982dea4f', cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f', target_dir='C:/Users/lsl/Downloads/_video_out/nasu-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.srt', source_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f/th.wav', source_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.srt', target_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.m4a', name='C:/Users/lsl/Downloads/nasu.mp4', noextname='nasu', basename='nasu.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=False, detect_language='th', recogn_type=0, model_name='medium', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/nasu-mp4/nasu.mp4', novoice_mp4='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)
[DEBUG] [job] 进入执行语音识别阶段 trk.cfg=TaskCfgVTT(is_cuda=True, uuid='93982dea4f', cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f', target_dir='C:/Users/lsl/Downloads/_video_out/nasu-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.srt', source_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f/th.wav', source_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.srt', target_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.m4a', name='C:/Users/lsl/Downloads/nasu.mp4', noextname='nasu', basename='nasu.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=False, detect_language='th', recogn_type=0, model_name='medium', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/nasu-mp4/nasu.mp4', novoice_mp4='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)

[DEBUG] [recognition]__init__:kwargs={'detect_language': 'th', 'audio_file': 'D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f/th.wav', 'cache_folder': 'D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f', 'model_name': 'medium', 'uuid': '93982dea4f', 'is_cuda': True, 'subtitle_type': 0, 'recogn_type': 0, 'max_speakers': -1, 'llm_post': False, 'recogn2pass': False}
[DEBUG] BaseRecogn 初始化

[DEBUG] GPU进程池:max_workers=1
[DEBUG] faster-whisper模式下，对medium模型返回的断句结果重新修正
为什么，语音识别还是那么慢，staring这个一直在动，就是不出来

Floor #19 DeepSeek reply at 3 months ago

这是正常现象。日志显示软件正在使用 faster-whisper 的 medium 模型进行语音识别，并且已进入 GPU 进程池开始处理。识别速度慢的原因如下：medium 模型本身计算量较大：相比 small 或 tiny 模型，medium 模型更准确但速度更慢。您的硬件限制：RTX 3060 6GB 显存属于中端显卡，处理 medium 模型需要一定时间。首次运行或清理缓存后：由于您勾选了“清理已生成”，软件需要重新执行完整的识别流程，无法使用任何缓存。处理长视频：如果视频较长（例如超过10分钟），识别时间会相应增加。您可以采取以下措施：耐心等待：语音识别是计算密集型任务，请给予足够的时间。对于中等长度的视频，使用 medium 模型可能需要几分钟到十几分钟。监控任务管理器：打开任务管理器，查看“GPU 0”的“GPU 利用率”和“专用GPU内存”使用情况。如果 GPU 利用率较高（例如 >50%），说明正在正常计算。如果长时间（例如超过30分钟）无进展且 GPU 利用率很低，则可能遇到了其他问题。如果最终因速度过慢而希望放弃，可以尝试使用更小的模型（small）以换取速度，但会牺牲一些准确度。请查阅相关文档：总是提示显存不足

Floor #20 103.172* reply at 3 months ago

GPU95%,咋个弄

Floor #21 DeepSeek reply at 3 months ago

GPU利用率达到95%是正常且理想的状态，说明您的显卡正在全力进行语音识别计算。这表明：软件运行正常：medium 模型正在您的 RTX 3060 6GB 显存上成功运行，没有出现显存不足的错误。速度已达到硬件上限：95%的利用率意味着显卡性能已被充分利用，识别速度是目前硬件条件下的最快速度。您无需进行任何操作，只需耐心等待任务完成。语音识别是整个过程最耗时的阶段，完成后会进入翻译和配音阶段，届时GPU利用率会下降。如果任务最终成功完成，但您对整体处理速度不满意，唯一的优化方法是更换更小的模型（如 small），但这会降低识别准确度。请查阅相关文档：总是提示显存不足

Floor #22 2409:896a* reply at 3 months ago

我的是40多分钟视频

Floor #23 DeepSeek reply at 3 months ago

对于40多分钟的视频，使用 medium 模型进行语音识别，在 RTX 3060 6GB 显存上，GPU 利用率 95% 是完全正常的。处理时长预估：根据视频内容复杂度（语音密度、背景噪音等），整个识别阶段可能需要 20分钟到1小时甚至更久。这是由模型计算量决定的。建议：耐心等待，不要中断进程。您可以观察任务管理器中的“专用GPU内存”使用量，只要没有出现“显存不足”的报错，且GPU利用率保持高位，就说明正在稳步处理。如果本次任务成功但您觉得耗时过长，后续处理类似长视频时，可以考虑以下折中方案：使用 small 模型：速度会显著加快，但识别准确度会有所下降。这是用精度换取速度的典型选择。使用 在线语音识别API：例如“阿里百炼 Qwen3-ASR”或“Gemini大模型识别”（需配置API Key和网络代理）。这些服务不依赖本地显存，速度通常更快且可能对小语种（如泰语）优化更好，但会产生费用。请查阅相关文档：总是提示显存不足使用 Gemini AI 进行语音识别

Floor #24 39.144* reply at 3 months ago

符号我的显卡的，我用那个版本的largeV3可以快速弄出来

Floor #25 DeepSeek reply at 3 months ago

根据您的硬件（RTX 3060 6GB 显存），任何版本的 large-v3 模型都无法“快速弄出来”。原因如下：显存硬性要求：large-v3 模型最低需要约 10GB 显存才能稳定运行。您的显卡只有 6GB 显存，这是无法通过软件设置改变的物理限制。强行使用会导致显存溢出、进程崩溃（即您最初遇到的错误）。速度与显存正相关：模型越大（large-v3 > medium > small），计算量越大，对显存和算力要求越高。在显存不足的情况下，系统会使用速度极慢的系统内存进行交换，导致速度反而比 medium 模型更慢，且必然失败。在您当前的硬件条件下，唯一可行的方案是使用 medium 或 small 模型。 如果您追求更快的速度，请按以下优先级操作：使用 small 模型：这是速度最快的可行方案，但准确度最低。优化 medium 模型设置：在确保任务能成功运行（即当前95% GPU利用率的状态）后，如果希望下次更快，可以尝试在菜单 -> 工具 -> 高级选项中，将“CUDA数据类型”从 float16 改为 int8。这可能会略微提升速度，但可能降低一些精度。考虑升级硬件：如果您经常需要处理长视频并追求高质量和速度，升级到显存 >= 10GB 的显卡（如 RTX 3080 10GB、RTX 4060 Ti 16GB 等）是唯一能使用 large-v3 模型的途径。请查阅相关文档：总是提示显存不足

Floor #26 103.172* reply at 3 months ago

就是这个软件3.95的符号吗，3.92的可以用large-v3

Floor #27 DeepSeek reply at 3 months ago

软件版本（v3.92 或 v3.95）与能否使用 large-v3 模型无关。能否运行 large-v3 模型的决定性因素是您的硬件显存大小。您的 RTX 3060 显卡只有 6GB 显存，而 large-v3 模型最低需要约 10GB 显存。这是物理限制，任何软件版本都无法绕过。即使您在 v3.92 版本中选择了 large-v3 模型，结果也会和现在一样：因显存不足而崩溃（BrokenProcessPool 错误）。v3.98 是最新版本，修复了更多错误并增加了新功能。建议您继续使用当前版本。在您现有的硬件条件下，唯一可行的方案是使用 medium 或 small 模型。如果您在旧版本中曾“成功”使用 large-v3，那很可能是因为：处理的是极短的视频片段，显存需求偶然未超过临界点。实际加载的是缓存中的其他模型（如 medium），但界面显示为 large-v3。请查阅相关文档：总是提示显存不足

#3845 TaskCfgVTT(is_cuda=True, uuid='c7da408aba', cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/21096/c

27 Replies

请查阅相关文档：

请查阅相关文档：

请查阅相关文档：

Post Your Reply

Related resource