#3845 TaskCfgVTT(is_cuda=True, uuid='c7da408aba', cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/21096/c

103.172* Posted at: 2 hours ago 👁35

语音识别阶段出错 [faster-whisper(本地)] 出错了,可能内存或显存不足 Model:large-v3 GPU0
Traceback (most recent call last):
File "videotrans\configure\_base.py", line 285, in _new_process
File "concurrent\futures\_base.py", line 458, in result
File "concurrent\futures\_base.py", line 403, in __get_result
concurrent.futures.process.BrokenProcessPool: A process in the process pool was terminated abruptly while the future was running or pending.

Traceback (most recent call last):
File "videotrans\configure\_base.py", line 285, in _new_process
File "concurrent\futures\_base.py", line 458, in result
File "concurrent\futures\_base.py", line 403, in __get_result
concurrent.futures.process.BrokenProcessPool: A process in the process pool was terminated abruptly while the future was running or pending.

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
File "videotrans\task\job.py", line 105, in run
File "videotrans\task\trans_create.py", line 360, in recogn
File "videotrans\recognition\__init__.py", line 272, in run
File "videotrans\recognition\_base.py", line 143, in run
File "videotrans\recognition\_overall.py", line 33, in _exec
File "videotrans\recognition\_overall.py", line 105, in _faster
File "videotrans\configure\_base.py", line 303, in _new_process
RuntimeError: 出错了,可能内存或显存不足 Model:large-v3 GPU0
Traceback (most recent call last):
File "videotrans\configure\_base.py", line 285, in _new_process
File "concurrent\futures\_base.py", line 458, in result
File "concurrent\futures\_base.py", line 403, in __get_result
concurrent.futures.process.BrokenProcessPool: A process in the process pool was terminated abruptly while the future was running or pending.
TaskCfgVTT(is_cuda=True, uuid='c7da408aba', cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/21096/c7da408aba', target_dir='nasu-mp4', source_language='泰国语', source_language_code='th', source_sub='nasu-mp4/th.srt', source_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/21096/c7da408aba/th.wav', source_wav_output='nasu-mp4/th.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='nasu-mp4/zh-cn.srt', target_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/21096/c7da408aba/target.wav', target_wav_output='nasu-mp4/zh-cn.m4a', name='C:/Users/lsl/Downloads/nasu.mp4', noextname='nasu', basename='nasu.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='th', recogn_type=0, model_name='large-v3', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='nasu-mp4/nasu.mp4', novoice_mp4='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/21096/c7da408aba/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)


=
system:Windows-10-10.0.22631-SP0
version:v3.98
frozen:True
language:zh
root_dir:D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327

27 Replies

这是显存不足导致的错误。您使用了 faster-whisper(本地)large-v3 模型,该模型至少需要 10GB 显存。当显存不足时,进程会被系统强制终止,导致 BrokenProcessPool 错误。

解决方案:

  1. 更换更小的模型:在语音识别设置中,将模型从 large-v3 更换为 mediumsmallbasemedium 模型是效果和资源消耗的较好平衡点。
  2. 调整高级设置以降低显存占用:进入 菜单 -> 工具 -> 高级选项,在“语音识别参数”区域进行如下修改:

    • CUDA数据类型:将 float32 改为 float16int8
    • 识别准确度beam_size:将 5 改为 1
    • 识别准确度best_of:将 5 改为 1
    • 启用上下文感知:确保此项为 false(不勾选)。
  3. 检查并关闭二次识别:在主界面右上角,确保“二次识别”选项未被勾选。如果同时处理多个视频,二次识别会占用额外显存。
  4. 确认显卡和CUDA环境:确保您的NVIDIA显卡驱动已更新,并正确安装了CUDA 12.8和cuDNN。在CMD中运行 nvidia-smi 可以查看可用显存。

请查阅相关文档:

如何看我的显存有没有10GB,是内存吗

显存是显卡专用的内存,不是电脑的系统内存。查看显存大小的方法如下:

  1. 使用任务管理器(推荐)

    • 在Windows任务栏空白处点击右键,选择“任务管理器”。
    • 切换到“性能”选项卡。
    • 在左侧列表中找到“GPU 0”(或 GPU 1 等),右侧会显示“专用GPU内存”。这个数值就是您的显存大小。例如,“4.0 GB”或“8.0 GB”。
  2. 使用命令行工具

    • Win + R 键,输入 cmd 并回车,打开命令提示符。
    • 输入命令 nvidia-smi 并回车。
    • 在输出的表格中,找到“Memory Usage”一栏,其中“Total”后面的数值就是您的总显存大小(单位是MiB,1024 MiB ≈ 1 GB)。

重要区别

  • 显存:是显卡(GPU)上专用的高速内存,用于处理图形和AI计算(如本软件的语音识别)。large-v3 模型需要的是显存
  • 内存:是电脑的系统内存(RAM),由CPU使用。如果软件提示“内存不足”,指的是系统内存。

如果您的显存小于10GB(例如只有4GB或6GB),则无法运行 large-v3 模型,必须按照上一条回复的步骤,更换为更小的模型(如 medium)。

请查阅相关文档:

C:\Users\lsl>nvidia-smi
Sun Mar 29 00:37:05 2026
+























-+
| NVIDIA-SMI 581.80 Driver Version: 581.80 CUDA Version: 13.0 |
+









-+





+




--+
| GPU Name Driver-Model | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|









=+





+




==|
| 0 NVIDIA GeForce RTX 3060 ... WDDM | 00000000:01:00.0 On | N/A |
| N/A 55C P0 27W / 107W | 938MiB / 6144MiB | 1% Default |
| | | N/A |
+









-+





+




--+

+























-+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|





















=|
| 0 N/A N/A 1528 C+G ....0.3856.84\msedgewebview2.exe N/A |
| 0 N/A N/A 4212 C+G ...xyewy\ShellExperienceHost.exe N/A |
| 0 N/A N/A 8572 C+G ...6hy\Build\Plugins\Mpv\mpv.exe N/A |
| 0 N/A N/A 8816 C+G ...ntrolPanel\SystemSettings.exe N/A |
| 0 N/A N/A 12700 C+G ...11.28973.206\QQPCExternal.exe N/A |
| 0 N/A N/A 13108 C+G ...D\CNext\CNext\AMDRSSrcExt.exe N/A |
| 0 N/A N/A 13136 C+G C:\Windows\explorer.exe N/A |
| 0 N/A N/A 14748 C+G ...y\StartMenuExperienceHost.exe N/A |
| 0 N/A N/A 15024 C+G ..._cw5n1h2txyewy\SearchHost.exe N/A |
| 0 N/A N/A 16300 C+G ...ogram Files\ToDesk\ToDesk.exe N/A |
| 0 N/A N/A 16468 C+G ...ffice6\promecefpluginhost.exe N/A |
| 0 N/A N/A 17144 C+G ...mba6cd70vzyy\ArmouryCrate.exe N/A |
| 0 N/A N/A 17652 C+G ...rive Mount\RaiDrive.Mount.exe N/A |
| 0 N/A N/A 19100 C+G ...a09mmv6hy\Lively.UI.WinUI.exe N/A |
| 0 N/A N/A 19440 C+G ...les\AweSun\flutter\AweSun.exe N/A |
| 0 N/A N/A 19568 C+G ...5n1h2txyewy\TextInputHost.exe N/A |
| 0 N/A N/A 20108 C+G ...acted\runtime\WeChatAppEx.exe N/A |
| 0 N/A N/A 20884 C+G ...t\Edge\Application\msedge.exe N/A |
| 0 N/A N/A 21040 C+G ...11.28973.206\QQPCExternal.exe N/A |
| 0 N/A N/A 21364 C+G ...8bbwe\PhoneExperienceHost.exe N/A |
| 0 N/A N/A 22440 C+G ...7hta09mmv6hy\Build\Lively.exe N/A |
| 0 N/A N/A 23420 C+G ...Next\CNext\RadeonSoftware.exe N/A |
| 0 N/A N/A 23708 C+G ....0.3856.84\msedgewebview2.exe N/A |
| 0 N/A N/A 25144 C+G ...t\Edge\Application\msedge.exe N/A |
| 0 N/A N/A 27968 C+G ...yb3d8bbwe\WindowsTerminal.exe N/A |
+





















-+

您的显存是 6GB(6144 MiB),远低于运行 large-v3 模型所需的 10GB。这是导致“显存不足”错误的直接原因。解决方案:更换更小的语音识别模型:在软件主界面的语音识别设置中,将模型从 large-v3 更换为 medium 或 small。对于泰语识别,medium 模型通常效果较好。调整高级设置以进一步降低显存占用:进入 菜单 -> 工具 -> 高级选项,在“语音识别参数”区域进行如下修改:CUDA数据类型:将 float32 改为 float16 或 int8。识别准确度beam_size:将 5 改为 1。识别准确度best_of:将 5 改为 1。启用上下文感知:确保此项为 false(不勾选)。关闭二次识别:在主界面右上角,确保“二次识别”选项未被勾选。如果以上调整后仍报错,请尝试使用更小的模型(如 small 或 base)。请查阅相关文档:总是提示显存不足

Traceback (most recent call last):
File "videotrans\task\job.py", line 105, in run
File "videotrans\task\trans_create.py", line 360, in recogn
File "videotrans\recognition\__init__.py", line 272, in run
File "videotrans\recognition\_base.py", line 143, in run
File "videotrans\recognition\_overall.py", line 33, in _exec
File "videotrans\recognition\_overall.py", line 105, in _faster
File "videotrans\configure\_base.py", line 303, in _new_process
RuntimeError: 出错了,可能内存或显存不足 Model:large-v3 GPU0
Traceback (most recent call last):
File "videotrans\configure\_base.py", line 285, in _new_process
File "concurrent\futures\_base.py", line 458, in result
File "concurrent\futures\_base.py", line 403, in __get_result
concurrent.futures.process.BrokenProcessPool: A process in the process pool was terminated abruptly while the future was running or pending.

[DEBUG] 最终配置信息:self.cfg=TaskCfgVTT(is_cuda=True, uuid='f6e6a1a3b8', cache_folder='D:/BaiduNetdiskDownload/win
......
ame=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='th', recogn_type=0, model_name='medium', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/nasu-mp4/nasu.mp4', novoice_mp4='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/21096/f6e6a1a3b8/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)

[DEBUG] [recognition]__init__:kwargs={'detect_language': 'th', 'audio_file': 'D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/21096/f6e6a1a3b8/th.wav', 'cache_folder': 'D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/21096/f6e6a1a3b8', 'model_name': 'medium', 'uuid': 'f6e6a1a3b8', 'is_cuda': True, 'subtitle_type': 0, 'recogn_type': 0, 'max_speakers': -1, 'llm_post': False, 'recogn2pass': False}
[DEBUG] BaseRecogn 初始化
[DEBUG] 最终配置信息:self.cfg=TaskCfgVTT(is_cuda=True, uuid='dc0cf24d74', cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/21096/dc0cf24d74', target_dir='C:/Users/lsl/Downloads/_video_out/nasu-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.srt', source_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/21096/dc0cf24d74/th.wav', source_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.srt', target_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/21096/dc0cf24d74/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.m4a', name='C:/Users/lsl/Downloads/nasu.mp4', noextname='nasu', basename='nasu.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='th', recogn_type=0, model_name='medium', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/nasu-mp4/nasu.mp4', novoice_mp4='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/21096/dc0cf24d74/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)已经改成medium了,为什么还是没有语音识别啊

错误信息显示模型仍然是 Model:large-v3,但您的配置中 model_name='medium'。这表明软件可能仍在尝试加载之前缓存或错误的模型文件。

  1. 强制清理缓存:在主界面左上角,确保 清理已生成 复选框已被勾选。这将强制软件重新下载或加载新的模型,而不是使用旧的缓存。
  2. 手动删除模型缓存:关闭软件,然后进入软件安装目录下的 models 文件夹。查找并删除名为 models--Systran--faster-whisper-large-v3 的文件夹(如果存在)。这可以确保软件不会错误地加载旧的大模型。
  3. 验证模型下载:重新启动软件,确保语音识别渠道选择 faster-whisper(本地),模型选择 medium。首次使用 medium 模型时,软件会重新下载。请确保网络连接正常,或参考知识库手动下载 medium 模型。
  4. 检查高级设置:进入 菜单 -> 工具 -> 高级选项,在“语音识别参数”区域,确认 faster/whisper模型 列表中包含 medium。同时,将 CUDA数据类型 改为 float16beam_sizebest_of 都设为 1
  5. 检查任务管理器:在处理过程中,打开任务管理器,查看“GPU 0”的“专用GPU内存”使用情况。如果使用量接近或达到6GB,说明 medium 模型在您的视频上可能仍然负载过高。如果再次报错,请尝试更换为更小的 small 模型。

请查阅相关文档:

用largeV3-trud在这个可以不,或者用largeV2

可以,但 large-v3-turbo 和 large-v2 模型对显存的需求与 large-v3 相近,仍然很可能超过您 6GB 的显存。建议的优先级如下:首选 medium 模型:这是最适合您 6GB 显存的模型,效果和资源消耗平衡最佳。如果 medium 模型仍报错,请按以下步骤操作:强制清理缓存:在主界面左上角,确保 清理已生成 复选框已被勾选。手动删除旧模型缓存:关闭软件,进入软件安装目录下的 models 文件夹,删除任何名称中包含 large-v3 或 large-v2 的文件夹(例如 models--Systran--faster-whisper-large-v3)。调整高级设置:进入 菜单 -> 工具 -> 高级选项,在“语音识别参数”区域进行如下修改:CUDA数据类型:确保已改为 float16 或 int8。识别准确度beam_size:确保已改为 1。识别准确度best_of:确保已改为 1。启用上下文感知:确保此项为 false(不勾选)。如果 medium 模型经过以上调整后仍然失败,请直接降级到 small 模型。small 模型对显存要求更低,是确保在 6GB 显存下稳定运行的最可靠选择。请查阅相关文档:总是提示显存不足手动下载适用于 faster-whisper(本地) 语音识别渠道的模型


Application started at 2026-03-29 00:51:58

First searching GPU...
[DEBUG] 平台: Windows。正在按优先级检测最佳的 'h264' 编码器: ['nvenc', 'qsv', 'amf']
[DEBUG] 正在测试编码器是否可用: h264_nvenc...
NVIDIA_GPU_NUMS=1
Found 1 GPUs, cost=3s
start workers...
process_max_gpu=1
multi_gpus=False
Concurrent task_nums=1
process_max=1
start 9 jobs
ended workers
[DEBUG] 硬件编码器 'h264_nvenc' 可用。
[DEBUG] 已选择硬件编码器: h264_nvenc
[DEBUG] 最终确定使用的编码器: h264_nvenc
[DEBUG] 平台: Windows。正在按优先级检测最佳的 'hevc' 编码器: ['nvenc', 'qsv', 'amf']
[DEBUG] 正在测试编码器是否可用: hevc_nvenc...
[DEBUG] 硬件编码器 'hevc_nvenc' 可用。
[DEBUG] 已选择硬件编码器: hevc_nvenc
[DEBUG] 最终确定使用的编码器: hevc_nvenc
[DEBUG] 最终配置信息:self.cfg=TaskCfgVTT(is_cuda=True, uuid='f79a3b1356', cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/27412/f79a3b1356', target_dir='C:/Users/lsl/Downloads/_video_out/nasu-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.srt', source_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/27412/f79a3b1356/th.wav', source_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.srt', target_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/27412/f79a3b1356/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.m4a', name='C:/Users/lsl/Downloads/nasu.mp4', noextname='nasu', basename='nasu.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=False, detect_language='th', recogn_type=0, model_name='large-v3-turbo', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/nasu-mp4/nasu.mp4', novoice_mp4='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/27412/f79a3b1356/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)
[DEBUG] [job] 进入执行语音识别阶段 trk.cfg=TaskCfgVTT(is_cuda=True, uuid='f79a3b1356', cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/27412/f79a3b1356', target_dir='C:/Users/lsl/Downloads/_video_out/nasu-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.srt', source_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/27412/f79a3b1356/th.wav', source_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.srt', target_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/27412/f79a3b1356/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.m4a', name='C:/Users/lsl/Downloads/nasu.mp4', noextname='nasu', basename='nasu.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=False, detect_language='th', recogn_type=0, model_name='large-v3-turbo', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/nasu-mp4/nasu.mp4', novoice_mp4='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/27412/f79a3b1356/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)

[DEBUG] [recognition]__init__:kwargs={'detect_language': 'th', 'audio_file': 'D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/27412/f79a3b1356/th.wav', 'cache_folder': 'D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/27412/f79a3b1356', 'model_name': 'large-v3-turbo', 'uuid': 'f79a3b1356', 'is_cuda': True, 'subtitle_type': 0, 'recogn_type': 0, 'max_speakers': -1, 'llm_post': False, 'recogn2pass': False}
[DEBUG] BaseRecogn 初始化
这个可以吗。就是加载有些慢,

日志显示您正在使用 large-v3-turbo 模型。该模型对显存的需求与 large-v3 相近,对于您 6GB 的显存来说仍然过高,极有可能在处理过程中因显存不足而崩溃。加载慢是正常的,因为模型较大,但加载成功不代表后续计算能顺利完成。为了确保任务成功完成,强烈建议您更换为更小的模型。具体操作:在主界面的语音识别设置中,将模型从 large-v3-turbo 更换为 mediumsmall。对于泰语识别,medium 模型是效果和稳定性的最佳平衡点。如果更换后仍报错,请执行以下步骤:强制清理缓存:确保主界面左上角的 清理已生成 复选框已被勾选。手动删除旧模型缓存:关闭软件,进入软件安装目录下的 models 文件夹,删除名称中包含 large-v3-turbolarge-v3 的文件夹(例如 models--mobiuslabsgmbh--faster-whisper-large-v3-turbo)。调整高级设置:进入 菜单 -> 工具 -> 高级选项,在“语音识别参数”区域,将 CUDA数据类型 改为 float16beam_sizebest_of 都设为 1。如果以上操作后 medium 模型仍然失败,请直接使用 small 模型。这是确保在 6GB 显存下稳定运行的最可靠选择。请查阅相关文档:总是提示显存不足手动下载适用于 faster-whisper(本地) 语音识别渠道的模型

beam_size 和 best_of 都设为 1这些都改成1的化,准确度是不是会不高

是的,将 beam_size 和 best_of 都设为 1 会略微降低识别准确度,但这是为了在显存有限的情况下确保任务能够成功运行的必要妥协。在您 6GB 显存的硬件条件下,这是平衡稳定性和效果的可行方案。为了尽可能弥补准确度的损失,您可以采取以下措施:使用 medium 模型:medium 模型本身的基础准确度就比 small 或 base 高,即使 beam_size 和 best_of 设为 1,其效果通常也优于 small 模型设为 5。明确指定发音语言:确保“发音语言”正确设置为“泰国语”,这能帮助模型更精准地识别。开启降噪:如果视频背景有噪音,可以勾选“降噪”选项。调整 VAD 参数:在 菜单 -> 工具 -> 高级选项 的“语音识别参数”区域,可以尝试将“语音阈值”设为 0.5,“最长语音持续秒数”设为 6,“静音分割持续毫秒”设为 500。这些是推荐的默认值,有助于提高分段准确性。如果任务能成功运行但您对识别结果不满意,可以再尝试将 beam_size 或 best_of 缓慢提高到 2 或 3,同时密切监控任务管理器中的显存使用量,确保不超过 6GB。请查阅相关文档:总是提示显存不足语音识别中的VAD参数调整


Application started at 2026-03-29 01:01:10

First searching GPU...
[DEBUG] 返回缓存的编解码器 Windows-264: h264_nvenc
[DEBUG] 返回缓存的编解码器 Windows-265: hevc_nvenc
NVIDIA_GPU_NUMS=1
Found 1 GPUs, cost=3s
start workers...
process_max_gpu=1
multi_gpus=False
Concurrent task_nums=1
process_max=1
start 9 jobs
ended workers
[DEBUG] 最终配置信息:self.cfg=TaskCfgVTT(is_cuda=True, uuid='93982dea4f', cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f', target_dir='C:/Users/lsl/Downloads/_video_out/nasu-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.srt', source_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f/th.wav', source_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.srt', target_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.m4a', name='C:/Users/lsl/Downloads/nasu.mp4', noextname='nasu', basename='nasu.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=False, detect_language='th', recogn_type=0, model_name='medium', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/nasu-mp4/nasu.mp4', novoice_mp4='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)
[DEBUG] [job] 进入执行语音识别阶段 trk.cfg=TaskCfgVTT(is_cuda=True, uuid='93982dea4f', cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f', target_dir='C:/Users/lsl/Downloads/_video_out/nasu-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.srt', source_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f/th.wav', source_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.srt', target_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.m4a', name='C:/Users/lsl/Downloads/nasu.mp4', noextname='nasu', basename='nasu.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=False, detect_language='th', recogn_type=0, model_name='medium', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/nasu-mp4/nasu.mp4', novoice_mp4='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)

[DEBUG] [recognition]__init__:kwargs={'detect_language': 'th', 'audio_file': 'D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f/th.wav', 'cache_folder': 'D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f', 'model_name': 'medium', 'uuid': '93982dea4f', 'is_cuda': True, 'subtitle_type': 0, 'recogn_type': 0, 'max_speakers': -1, 'llm_post': False, 'recogn2pass': False}
[DEBUG] BaseRecogn 初始化

配置已正确设置为 medium 模型。日志显示软件已开始初始化识别模块,这是一个正常启动的迹象。现在需要观察后续是否会出现显存不足的错误。如果任务成功开始处理,请耐心等待。medium 模型在 6GB 显存下运行是可行的,尤其是在您已将 beam_size 和 best_of 设为 1 的情况下。如果后续再次出现“显存不足”或“BrokenProcessPool”错误,请按以下步骤操作:更换为 small 模型:这是最保守但最稳定的选择,确保在 6GB 显存下成功运行。检查并关闭其他占用显存的程序:在任务处理期间,尽量减少其他使用 GPU 的应用程序(如游戏、浏览器、视频播放器),以释放更多显存供软件使用。监控显存使用:在处理过程中,打开任务管理器,切换到“性能”选项卡,查看“GPU 0”的“专用GPU内存”使用量。如果使用量持续接近 6GB,则 small 模型是唯一可靠的选择。如果任务成功完成,但您对识别准确度不满意,可以在后续尝试中,在确保显存充足的前提下,将 beam_size 或 best_of 缓慢提高到 2。请查阅相关文档:总是提示显存不足

medium这个beam_size 或 best_of 缓慢提高到 5吗?,或者不提高这个用large-v3-turbo

不建议将 beam_size 或 best_of 提高到 5,也不建议换回 large-v3-turbo。原因如下:显存限制:您的显卡只有 6GB 显存。medium 模型在 beam_size/best_of=5 时,显存占用会显著增加,极有可能再次触发显存不足错误。large-v3-turbo 模型本身就需要约 10GB 显存,在您的硬件上根本无法正常运行。优化建议:在 medium 模型且 beam_size/best_of=1 的设置下,先让任务成功运行一次。如果成功完成但识别结果不理想,可以尝试进行微调,而不是大幅提高参数:优先调整 VAD 参数:在 菜单 -> 工具 -> 高级选项 的“语音识别参数”区域,尝试调整“语音阈值”(例如 0.3 到 0.5)、“最长语音持续秒数”(例如 6)和“静音分割持续毫秒”(例如 500),这有助于改善字幕分段,可能比提高 beam_size 效果更明显。谨慎提高 beam_size:如果必须提高,可以尝试将 beam_size 从 1 提高到 2,同时密切监控任务管理器中的显存使用量。如果显存使用未超过 5.5GB 且任务成功,再考虑是否提高到 3。切勿直接提高到 5。考虑使用专门的小语种模型:对于泰语识别,您可以尝试知识库中提到的其他渠道,例如“阿里百炼 Qwen3-ASR”(在线API,可能需要付费)或“Gemini大模型识别”(在线API),这些可能对泰语有更好的支持,且不依赖本地显存。请查阅相关文档:总是提示显存不足语音识别中的VAD参数调整使用 Gemini AI 进行语音识别


Application started at 2026-03-29 01:01:10

First searching GPU...
[DEBUG] 返回缓存的编解码器 Windows-264: h264_nvenc
[DEBUG] 返回缓存的编解码器 Windows-265: hevc_nvenc
NVIDIA_GPU_NUMS=1
Found 1 GPUs, cost=3s
start workers...
process_max_gpu=1
multi_gpus=False
Concurrent task_nums=1
process_max=1
start 9 jobs
ended workers
[DEBUG] 最终配置信息:self.cfg=TaskCfgVTT(is_cuda=True, uuid='93982dea4f', cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f', target_dir='C:/Users/lsl/Downloads/_video_out/nasu-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.srt', source_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f/th.wav', source_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.srt', target_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.m4a', name='C:/Users/lsl/Downloads/nasu.mp4', noextname='nasu', basename='nasu.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=False, detect_language='th', recogn_type=0, model_name='medium', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/nasu-mp4/nasu.mp4', novoice_mp4='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)
[DEBUG] [job] 进入执行语音识别阶段 trk.cfg=TaskCfgVTT(is_cuda=True, uuid='93982dea4f', cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f', target_dir='C:/Users/lsl/Downloads/_video_out/nasu-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.srt', source_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f/th.wav', source_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.srt', target_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.m4a', name='C:/Users/lsl/Downloads/nasu.mp4', noextname='nasu', basename='nasu.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=False, detect_language='th', recogn_type=0, model_name='medium', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/nasu-mp4/nasu.mp4', novoice_mp4='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)

[DEBUG] [recognition]__init__:kwargs={'detect_language': 'th', 'audio_file': 'D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f/th.wav', 'cache_folder': 'D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/25352/93982dea4f', 'model_name': 'medium', 'uuid': '93982dea4f', 'is_cuda': True, 'subtitle_type': 0, 'recogn_type': 0, 'max_speakers': -1, 'llm_post': False, 'recogn2pass': False}
[DEBUG] BaseRecogn 初始化

[DEBUG] GPU进程池:max_workers=1
[DEBUG] faster-whisper模式下,对medium模型返回的断句结果重新修正
为什么,语音识别还是那么慢,staring这个一直在动,就是不出来

这是正常现象。日志显示软件正在使用 faster-whisper 的 medium 模型进行语音识别,并且已进入 GPU 进程池开始处理。识别速度慢的原因如下:medium 模型本身计算量较大:相比 small 或 tiny 模型,medium 模型更准确但速度更慢。您的硬件限制:RTX 3060 6GB 显存属于中端显卡,处理 medium 模型需要一定时间。首次运行或清理缓存后:由于您勾选了“清理已生成”,软件需要重新执行完整的识别流程,无法使用任何缓存。处理长视频:如果视频较长(例如超过10分钟),识别时间会相应增加。您可以采取以下措施:耐心等待:语音识别是计算密集型任务,请给予足够的时间。对于中等长度的视频,使用 medium 模型可能需要几分钟到十几分钟。监控任务管理器:打开任务管理器,查看“GPU 0”的“GPU 利用率”和“专用GPU内存”使用情况。如果 GPU 利用率较高(例如 >50%),说明正在正常计算。如果长时间(例如超过30分钟)无进展且 GPU 利用率很低,则可能遇到了其他问题。如果最终因速度过慢而希望放弃,可以尝试使用更小的模型(small)以换取速度,但会牺牲一些准确度。请查阅相关文档:总是提示显存不足

GPU95%,咋个弄

GPU利用率达到95%是正常且理想的状态,说明您的显卡正在全力进行语音识别计算。这表明:软件运行正常:medium 模型正在您的 RTX 3060 6GB 显存上成功运行,没有出现显存不足的错误。速度已达到硬件上限:95%的利用率意味着显卡性能已被充分利用,识别速度是目前硬件条件下的最快速度。您无需进行任何操作,只需耐心等待任务完成。语音识别是整个过程最耗时的阶段,完成后会进入翻译和配音阶段,届时GPU利用率会下降。如果任务最终成功完成,但您对整体处理速度不满意,唯一的优化方法是更换更小的模型(如 small),但这会降低识别准确度。请查阅相关文档:总是提示显存不足

我的是40多分钟视频

对于40多分钟的视频,使用 medium 模型进行语音识别,在 RTX 3060 6GB 显存上,GPU 利用率 95% 是完全正常的。处理时长预估:根据视频内容复杂度(语音密度、背景噪音等),整个识别阶段可能需要 20分钟到1小时甚至更久。这是由模型计算量决定的。建议:耐心等待,不要中断进程。您可以观察任务管理器中的“专用GPU内存”使用量,只要没有出现“显存不足”的报错,且GPU利用率保持高位,就说明正在稳步处理。如果本次任务成功但您觉得耗时过长,后续处理类似长视频时,可以考虑以下折中方案:使用 small 模型:速度会显著加快,但识别准确度会有所下降。这是用精度换取速度的典型选择。使用 在线语音识别API:例如“阿里百炼 Qwen3-ASR”或“Gemini大模型识别”(需配置API Key和网络代理)。这些服务不依赖本地显存,速度通常更快且可能对小语种(如泰语)优化更好,但会产生费用。请查阅相关文档:总是提示显存不足使用 Gemini AI 进行语音识别

符号我的显卡的,我用那个版本的largeV3可以快速弄出来

根据您的硬件(RTX 3060 6GB 显存),任何版本的 large-v3 模型都无法“快速弄出来”。原因如下:显存硬性要求:large-v3 模型最低需要约 10GB 显存才能稳定运行。您的显卡只有 6GB 显存,这是无法通过软件设置改变的物理限制。强行使用会导致显存溢出、进程崩溃(即您最初遇到的错误)。速度与显存正相关:模型越大(large-v3 > medium > small),计算量越大,对显存和算力要求越高。在显存不足的情况下,系统会使用速度极慢的系统内存进行交换,导致速度反而比 medium 模型更慢,且必然失败。在您当前的硬件条件下,唯一可行的方案是使用 medium 或 small 模型。 如果您追求更快的速度,请按以下优先级操作:使用 small 模型:这是速度最快的可行方案,但准确度最低。优化 medium 模型设置:在确保任务能成功运行(即当前95% GPU利用率的状态)后,如果希望下次更快,可以尝试在 菜单 -> 工具 -> 高级选项 中,将“CUDA数据类型”从 float16 改为 int8。这可能会略微提升速度,但可能降低一些精度。考虑升级硬件:如果您经常需要处理长视频并追求高质量和速度,升级到显存 >= 10GB 的显卡(如 RTX 3080 10GB、RTX 4060 Ti 16GB 等)是唯一能使用 large-v3 模型的途径。请查阅相关文档:总是提示显存不足

就是这个软件3.95的符号吗,3.92的可以用large-v3

软件版本(v3.92 或 v3.95)与能否使用 large-v3 模型无关。能否运行 large-v3 模型的决定性因素是您的硬件显存大小。您的 RTX 3060 显卡只有 6GB 显存,而 large-v3 模型最低需要约 10GB 显存。这是物理限制,任何软件版本都无法绕过。即使您在 v3.92 版本中选择了 large-v3 模型,结果也会和现在一样:因显存不足而崩溃(BrokenProcessPool 错误)。v3.98 是最新版本,修复了更多错误并增加了新功能。建议您继续使用当前版本。在您现有的硬件条件下,唯一可行的方案是使用 mediumsmall 模型。如果您在旧版本中曾“成功”使用 large-v3,那很可能是因为:处理的是极短的视频片段,显存需求偶然未超过临界点。实际加载的是缓存中的其他模型(如 medium),但界面显示为 large-v3。请查阅相关文档:总是提示显存不足

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource