#3518 under win 11 pyvideotransv3.97 always return [1.0%] An error has occurred. There may be insufficient memory or video mem

113.234* Posted at: 1 day ago 👁22

under win 11 pyvideotransv3.97 always return [1.0%] An error has occurred. There may be insufficient memory or video memory, 尽管我显存30g并且只用了一半。请问如何视频分割?或者如何设置,


Application started at 2026-03-08 03:04:40

First searching GPU...
[DEBUG] 返回缓存的编解码器 Windows-264: h264_nvenc
[DEBUG] 返回缓存的编解码器 Windows-265: hevc_nvenc
Found 1 GPUs, cost=1s
start workers...
process_max_gpu=0
multi_gpus=False
Concurrent task_nums=1
process_max=0
start 8 jobs
ended workers
等待 uuid_signal 线程退出
正在等待线程 PrepareVideo 结束...
正在等待线程 SpeechToText 结束...
正在等待线程 DiarizSpeaker 结束...
正在等待线程 TranslationSRT 结束...
正在等待线程 DubbingSrt 结束...
正在等待线程 AlignVieoAudioSrt 结束...
正在等待线程 AssembVideoAudioSrt 结束...
正在等待线程 TaskDone 结束...
Successfully killed ffmpeg processes using taskkill


Application started at 2026-03-08 03:04:51

First searching GPU...
[DEBUG] 返回缓存的编解码器 Windows-264: h264_nvenc
[DEBUG] 返回缓存的编解码器 Windows-265: hevc_nvenc
Found 1 GPUs, cost=1s
start workers...
process_max_gpu=0
mu
......
p4', novoice_mp4='C:/NN_Programs/win-pyvideotrans-v3.97-0304/tmp/6484/34d4131c0f/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=True, recogn2pass=True, output_srt=0, copysrt_rawvideo=False)

[DEBUG] [recognition]__init__:kwargs={'detect_language': 'ja', 'audio_file': 'C:/NN_Programs/win-pyvideotrans-v3.97-0304/tmp/6484/34d4131c0f/ja.wav', 'cache_folder': 'C:/NN_Programs/win-pyvideotrans-v3.97-0304/tmp/6484/34d4131c0f', 'model_name': 'large-v3', 'uuid': '34d4131c0f', 'is_cuda': True, 'subtitle_type': 0, 'recogn_type': 0, 'max_speakers': -1, 'llm_post': False, 'recogn2pass': False}
[DEBUG] BaseRecogn 初始化
无法连接 huggingface.co, 使用镜像替换: hf-mirror.com
HTTPSConnectionPool(host='huggingface.co', port=443): Max retries exceeded with url: / (Caused by ConnectTimeoutError(, 'Connection to huggingface.co timed out. (connect timeout=3)'))
[DEBUG] [语音识别]渠道0,large-v3:共耗时:6s
[DEBUG] 最终配置信息:self.cfg=TaskCfgVTT(is_cuda=True, uuid='acb04c1492', cache_folder='C:/NN_Programs/win-pyvideotrans-v3.97-0304/tmp/6484/acb04c1492', target_dir='D:/Excred/Jump_Start_Essentials_Training/MU_ionic_solutions_2023_June_Videos/_video_out/1-mp4', source_language='Japanese', source_language_code='ja', source_sub='D:/Excred/Jump_Start_Essentials_Training/MU_ionic_solutions_2023_June_Videos/_video_out/1-mp4/ja.srt', source_wav='C:/NN_Programs/win-pyvideotrans-v3.97-0304/tmp/6484/acb04c1492/ja.wav', source_wav_output='D:/Excred/Jump_Start_Essentials_Training/MU_ionic_solutions_2023_June_Videos/_video_out/1-mp4/ja.m4a', target_language='English', target_language_code='en', target_sub='D:/Excred/Jump_Start_Essentials_Training/MU_ionic_solutions_2023_June_Videos/_video_out/1-mp4/en.srt', target_wav='C:/NN_Programs/win-pyvideotrans-v3.97-0304/tmp/6484/acb04c1492/target.wav', target_wav_output='D:/Excred/Jump_Start_Essentials_Training/MU_ionic_solutions_2023_June_Videos/_video_out/1-mp4/en.m4a', name='D:/Excred/Jump_Start_Essentials_Training/MU_ionic_solutions_2023_June_Videos/1.mp4', noextname='1', basename='1.mp4', ext='mp4', dirname='D:/Excred/Jump_Start_Essentials_Training/MU_ionic_solutions_2023_June_Videos', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='Andrew(Male/US)', voice_autorate=True, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='ja', recogn_type=1, model_name='tiny', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='biaozhun', subtitles='', targetdir_mp4='D:/Excred/Jump_Start_Essentials_Training/MU_ionic_solutions_2023_June_Videos/_video_out/1-mp4/1.mp4', novoice_mp4='C:/NN_Programs/win-pyvideotrans-v3.97-0304/tmp/6484/acb04c1492/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=True, recogn2pass=True, output_srt=0, copysrt_rawvideo=False)

[DEBUG] [recognition]__init__:kwargs={'detect_language': 'ja', 'audio_file': 'C:/NN_Programs/win-pyvideotrans-v3.97-0304/tmp/6484/acb04c1492/ja.wav', 'cache_folder': 'C:/NN_Programs/win-pyvideotrans-v3.97-0304/tmp/6484/acb04c1492', 'model_name': 'tiny', 'uuid': 'acb04c1492', 'is_cuda': True, 'subtitle_type': 0, 'recogn_type': 1, 'max_speakers': -1, 'llm_post': False, 'recogn2pass': False}
[DEBUG] BaseRecogn 初始化

[DEBUG] [语音识别]渠道1,tiny:共耗时:0s
[WARNING] 读取进程间日志文件出错,可忽略:[Errno 2] No such file or directory: 'C:\NN_Programs\win-pyvideotrans-v3.97-0304\tmp\6484\acb04c1492\openai-ja-1772926203.9856439.log'
[WARNING] 读取进程间日志文件出错,可忽略:[Errno 2] No such file or directory: 'C:\NN_Programs\win-pyvideotrans-v3.97-0304\tmp\6484\acb04c1492\openai-ja-1772926203.9856439.log'

3 Replies

问题核心在于网络连接失败导致语音识别模型无法下载,而非显存不足。日志显示软件尝试连接 huggingface.co 下载 faster-whisper 模型失败,并自动切换至镜像站 hf-mirror.com,但可能镜像站也不稳定或网络环境受限,导致模型下载不完整或失败,进而引发处理中断。

解决方案如下:

  1. 手动下载模型:这是最直接的解决方案。根据你使用的语音识别渠道(faster-whisper)和模型(large-v3),手动下载模型文件。

    • 在软件根目录(sp.exe 所在目录)下找到 models 文件夹。
    • models 文件夹内创建名为 models--Systran--faster-whisper-large-v3 的文件夹。
    • 访问模型下载地址:https://huggingface.co/Systran/faster-whisper-large-v3/tree/main
    • 将该页面所有的 .json.bin.txt 文件下载并复制到上一步创建的文件夹内。如果已存在同名文件,直接覆盖。
  2. 配置网络代理:如果手动下载不便,可尝试配置网络代理以改善连接。

    • 在软件主界面,点击顶部菜单栏的 设置 -> 网络代理
    • 填入可用的代理地址和端口(例如 http://127.0.0.1:10809)。
    • 保存设置后重启软件,软件将尝试通过代理下载模型。
  3. 检查高级设置:确保软件能充分利用你的硬件资源。

    • 进入 菜单 -> 工具 -> 高级选项
    • 在【通用设置】中,确认 GPU同时任务数[重启生效] 已设置为 1(默认值,适合大多数单显卡情况)。
    • 在【语音识别参数】中,确认 CUDA数据类型 已设置为 float16default 以启用 GPU 加速。

完成以上任一操作(尤其是手动下载模型)后,重新启动软件并尝试处理视频。

请查阅相关文档:

我已经下载好了 models--Systran--faster-whisper-large-v3,软件每次还是尝试下载并且报错显存不足

问题核心在于软件未能正确识别已手动下载的模型文件,仍尝试从网络下载,且下载失败后触发了错误的“显存不足”提示。这通常是由于模型文件不完整、文件夹命名错误或软件缓存未更新导致的。

解决方案如下:

  1. 验证模型文件完整性

    • 进入 models/models--Systran--faster-whisper-large-v3 文件夹。
    • 确保该文件夹内包含以下关键文件(至少应有多个 .bin 文件):

      • config.json
      • model.bin (或类似名称的 .bin 文件)
      • vocabulary.json
      • preprocessor_config.json
    • 如果文件缺失或不完整,请重新从 HuggingFace 页面下载所有文件。
  2. 检查文件夹命名

    • 确认文件夹名称 完全一致,包括大小写和连字符:models--Systran--faster-whisper-large-v3
    • 不要在文件夹名中添加额外空格或字符。
  3. 清理软件缓存并重启

    • 关闭 pyVideoTrans 软件。
    • 删除软件根目录下的 tmp 文件夹(如果存在)。这是临时文件目录,清理它可以强制软件重新初始化。
    • 重新启动软件,再次尝试任务。软件应直接加载本地模型,而不再尝试下载。
  4. 检查高级设置中的模型列表

    • 进入 菜单 -> 工具 -> 高级选项
    • 找到【语音识别参数】区域。
    • 检查 faster/whisper模型 这一项。其值应为英文逗号分隔的模型名称列表,例如 tiny,base,small,medium,large-v3-turbo,large-v1,large-v2,large-v3
    • 确保 large-v3 在列表中。如果不在,可以手动添加进去。

如果完成以上步骤后问题依旧,请提供 logs 文件夹中最新日志文件的底部约30行内容,以便进一步分析。

请查阅相关文档:

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource