卡在 STT use large-v3 starting...
一直卡在这了
#4043 卡在 STT use large-v3 starting...
11 Replies
这是由于语音识别模型 large-v3 下载失败或加载缓慢导致的。
解决方案:
- 检查网络与代理:
large-v3模型首次使用需要从 HuggingFace 下载。如果网络不通,会长时间卡住。请确保网络连接正常,如需代理,请在主界面“网络代理地址”中正确填写。 手动下载模型:如果自动下载失败,可以手动下载模型文件。
- 在软件根目录的
models文件夹内,创建名为models--Systran--faster-whisper-large-v3的文件夹。 - 访问模型下载页面:
https://huggingface.co/Systran/faster-whisper-large-v3/tree/main - 将该页面所有
.json、.bin、.txt文件下载并复制到上一步创建的文件夹中。 - 重启软件后,软件将直接使用本地模型,不再下载。
- 在软件根目录的
- 使用更小模型:如果显存或内存不足(
large-v3要求较高),也可能导致加载卡死。可尝试在主界面将模型切换为medium或small。 - 检查 CUDA 环境:如果已安装 CUDA 但未勾选“CUDA加速”,加载速度会非常慢。请确保已正确安装 CUDA 12.8 并勾选此选项。
如果以上步骤无法解决,请提供软件安装目录下 logs 文件夹中最新日志文件的底部约30行内容,以便进一步分析。
请查阅相关文档:
Application started at 2026-04-13 04:35:12
First searching GPU...
NVIDIA_GPU_NUMS=1
Found 1 GPUs, cost=3s
start workers...
process_max_gpu=1
multi_gpus=False
Concurrent task_nums=1
process_max=1
start 9 jobs
ended workers
[DEBUG] 返回缓存的编解码器 Windows-264: h264_nvenc
[DEBUG] 返回缓存的编解码器 Windows-265: hevc_nvenc
等待 uuid_signal 线程退出
正在等待线程 PrepareVideo 结束...
正在等待线程 SpeechToText 结束...
正在等待线程 DiarizSpeaker 结束...
正在等待线程 TranslationSRT 结束...
正在等待线程 DubbingSrt 结束...
正在等待线程 SpeechToText2 结束...
正在等待线程 AlignVieoAudioSrt 结束...
正在等待线程 AssembVideoAudioSrt 结束...
正在等待线程 TaskDone 结束...
Successfully killed ffmpeg processes using taskkill
[DEBUG] 最终配置信息:self.cfg=TaskCfgVTT(is_cuda=True, uuid='4d5f1dea92', cache_folder='C:/Users/demon/Desktop/AI翻译软件/tmp/31728/4d5f1dea92', target_dir='C:/Users/demon/Desktop/AIAI/YQ9055/_video_out/1-26-mp4', source_language='英语', source_language_code='en', source_sub='C:/Users/demon/Desktop/AIAI/YQ9055/_video_out/1-26-mp4/en.srt', source_wav='C:/Us
......
k your config.
Traceback (most recent call last):
File "videotrans\configure\_base.py", line 289, in _new_process
RuntimeError: Traceback (most recent call last):
File "videotrans\process\prepare_audio.py", line 72, in vocal_bgm
File "videotrans\process\prepare_audio.py", line 53, in create_offline_source_separation
ValueError: Please check your config.
[ERROR] new process:Traceback (most recent call last):
File "videotrans\configure\_base.py", line 289, in _new_process
RuntimeError: Traceback (most recent call last):
File "videotrans\process\prepare_audio.py", line 72, in vocal_bgm
File "videotrans\process\prepare_audio.py", line 53, in create_offline_source_separation
ValueError: Please check your config.
Traceback (most recent call last):
File "videotrans\configure\_base.py", line 289, in _new_process
RuntimeError: Traceback (most recent call last):
File "videotrans\process\prepare_audio.py", line 72, in vocal_bgm
File "videotrans\process\prepare_audio.py", line 53, in create_offline_source_separation
ValueError: Please check your config.
[ERROR] 人声背景声分离失败:Traceback (most recent call last):
File "videotrans\process\prepare_audio.py", line 72, in vocal_bgm
File "videotrans\process\prepare_audio.py", line 53, in create_offline_source_separation
ValueError: Please check your config.
Traceback (most recent call last):
File "videotrans\task\trans_create.py", line 931, in _split_audio_byraw
File "videotrans\configure\_base.py", line 289, in _new_process
RuntimeError: Traceback (most recent call last):
File "videotrans\process\prepare_audio.py", line 72, in vocal_bgm
File "videotrans\process\prepare_audio.py", line 53, in create_offline_source_separation
ValueError: Please check your config.
[ERROR] 人声背景声分离失败:Traceback (most recent call last):
File "videotrans\process\prepare_audio.py", line 72, in vocal_bgm
File "videotrans\process\prepare_audio.py", line 53, in create_offline_source_separation
ValueError: Please check your config.
Traceback (most recent call last):
File "videotrans\task\trans_create.py", line 931, in _split_audio_byraw
File "videotrans\configure\_base.py", line 289, in _new_process
RuntimeError: Traceback (most recent call last):
File "videotrans\process\prepare_audio.py", line 72, in vocal_bgm
File "videotrans\process\prepare_audio.py", line 53, in create_offline_source_separation
ValueError: Please check your config.
[DEBUG] [recognition]__init__:kwargs={'detect_language': 'en', 'audio_file': 'C:/Users/demon/Desktop/AI翻译软件/tmp/6484/8b4399a188/en.wav', 'cache_folder': 'C:/Users/demon/Desktop/AI翻译软件/tmp/6484/8b4399a188', 'model_name': 'large-v3', 'uuid': '8b4399a188', 'is_cuda': True, 'subtitle_type': 1, 'recogn_type': 0, 'max_speakers': -1, 'llm_post': False, 'recogn2pass': False}
[DEBUG] BaseRecogn 初始化
[DEBUG] GPU进程池:max_workers=1
这是由于在“人声背景声分离”步骤中配置错误导致的。日志显示 ValueError: Please check your config.,通常是因为在“设置更多参数”中勾选了“分离人声背景声”,但相关模型未正确下载或配置。
解决方案:
- 取消“分离人声背景声”:在主界面点击“设置更多参数...”,取消勾选“分离人声背景声”选项,然后重新开始翻译任务。
- 如需使用该功能,请确保模型已下载:如果确实需要分离人声和背景音,请确保已正确下载相关模型。该功能依赖阿里云 modelscope 的模型,首次使用需要在线下载。请检查网络连接,或手动下载模型文件。
- 检查克隆配音配置:如果你选择了配音角色为
clone(声音克隆),并勾选了“分离人声背景声”,请确保“最短语音持续毫秒”已设置为3000或更高,且“最长语音持续秒数”设置为10或更低。这可以在“菜单-工具-高级选项-语音识别参数”中调整。
请查阅相关文档:
[DEBUG] [FFMPEG-CMD]:
ffmpeg -hide_banner -ignore_unknown -threads 0 -y -fflags +genpts -i C:/Users/demon/Desktop/AIAI/YQ9055/1-26.mp4 -an -c:v copy novoice.mp4
[DEBUG] [FFMPEG-CMD]:
ffmpeg -hide_banner -ignore_unknown -threads 0 -y -i C:/Users/demon/Desktop/AIAI/YQ9055/1-26.mp4 -vn -ac 1 -ar 16000 -c:a pcm_s16le C:/Users/demon/Desktop/AI翻译软件/tmp/6484/96393410db/en.wav
[DEBUG] 最终配置信息:self.cfg=TaskCfgVTT(is_cuda=True, uuid='68f6637b01', cache_folder='C:/Users/demon/Desktop/AI翻译软件/tmp/6484/68f6637b01', target_dir='C:/Users/demon/Desktop/AIAI/YQ9055/_video_out/1-26-mp4', source_language='英语', source_language_code='en', source_sub='C:/Users/demon/Desktop/AIAI/YQ9055/_video_out/1-26-mp4/en.srt', source_wav='C:/Users/demon/Desktop/AI翻译软件/tmp/6484/68f6637b01/en.wav', source_wav_output='C:/Users/demon/Desktop/AIAI/YQ9055/_video_out/1-26-mp4/en.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='C:/Users/demon/Desktop/AIAI/YQ9055/_video_out/1-26-mp4/zh-cn.srt', target_wav='C:/Users/demon/Desktop/AI翻译软件/tmp/6484/68f6637b01/target.wav', target_wav_output='C:/Users/demon/Desktop/AIAI/YQ9055/_video_out/1-26-mp4/zh-cn.m4a', name='C:/Users/demon/Desktop/AIAI/YQ9055/1-26.mp4', noextname='1-26', basename='1-26.mp4', ext='mp4', dirname='C:/Users/demon/Desktop/AIAI/YQ9055', shound_del_name=None, translate_type=0, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='YunJhe(Male/TW)', voice_autorate=True, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='en', recogn_type=0, model_name='large-v3', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='biaozhun', subtitles='', targetdir_mp4='C:/Users/demon/Desktop/AIAI/YQ9055/_video_out/1-26-mp4/1-26.mp4', novoice_mp4='C:/Users/demon/Desktop/AI翻译软件/tmp/6484/68f6637b01/novoice.mp4', is_separate=False, embed_bgm=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=1, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)
[DEBUG] [FFMPEG-CMD]:
ffmpeg -hide_banner -ignore_unknown -threads 0 -y -fflags +genpts -i C:/Users/demon/Desktop/AIAI/YQ9055/1-26.mp4 -an -c:v copy novoice.mp4
[DEBUG] [FFMPEG-CMD]:
ffmpeg -hide_banner -ignore_unknown -threads 0 -y -i C:/Users/demon/Desktop/AIAI/YQ9055/1-26.mp4 -vn -ac 1 -ar 16000 -c:a pcm_s16le C:/Users/demon/Desktop/AI翻译软件/tmp/6484/68f6637b01/en.wav
[DEBUG] [recognition]__init__:kwargs={'detect_language': 'en', 'audio_file': 'C:/Users/demon/Desktop/AI翻译软件/tmp/6484/68f6637b01/en.wav', 'cache_folder': 'C:/Users/demon/Desktop/AI翻译软件/tmp/6484/68f6637b01', 'model_name': 'large-v3', 'uuid': '68f6637b01', 'is_cuda': True, 'subtitle_type': 1, 'recogn_type': 0, 'max_speakers': -1, 'llm_post': False, 'recogn2pass': False}
[DEBUG] BaseRecogn 初始化
从日志看,软件已成功初始化并开始语音识别(STT use large-v3 starting...),但可能因模型下载或加载而长时间卡住。根据之前的错误,你已取消了“分离人声背景声”,现在问题集中在语音识别阶段。解决方案:检查模型下载:这是最常见的原因。large-v3 模型首次使用需要从 HuggingFace 下载。如果网络不通或下载缓慢,会长时间卡在“starting...”。请确保网络连接正常。如需代理,请在主界面“网络代理地址”中正确填写(格式如 http://127.0.0.1:10808)。手动下载模型:如果自动下载失败,可以手动下载模型文件。在软件根目录的 models 文件夹内,创建名为 models--Systran--faster-whisper-large-v3 的文件夹。访问模型下载页面:https://huggingface.co/Systran/faster-whisper-large-v3/tree/main将该页面所有 .json、.bin、.txt 文件下载并复制到上一步创建的文件夹中。重启软件后,软件将直接使用本地模型,不再下载。检查 CUDA 加速:日志显示 is_cuda=True,说明已启用 CUDA 加速。请确认已正确安装 CUDA 12.8 和 cuDNN。如果 CUDA 环境有问题,加载也会变慢。可以在 CMD 中输入 nvcc -V 和 nvidia-smi 验证。使用更小模型:如果显存或内存不足(large-v3 要求较高),也可能导致加载卡死。可尝试在主界面将模型切换为 medium 或 large-v3-turbo。检查文件路径:确保视频文件路径和软件安装路径不包含中文字符或特殊符号。从日志看,你的路径 C:/Users/demon/Desktop/AIAI/YQ9055/1-26.mp4 是英文,没有问题。如果以上步骤无法解决,请提供软件安装目录下 logs 文件夹中最新日志文件的底部约30行内容,以便进一步分析。请查阅相关文档:手动下载适用于 faster-whisper(本地) 语音识别渠道的模型
已经在软件里面重新下载large-v3 并且开启了CUDA 还是卡在STT use large v3 starting 显卡用的4080
这是由于 large-v3 模型在 CUDA 环境下加载失败或初始化卡死导致的。虽然已开启 CUDA,但可能因环境不匹配或显存分配问题导致进程停滞。解决方案:检查 CUDA 和 cuDNN 版本:确保安装的是 CUDA 12.8 和 cuDNN 9.x 版本。版本不匹配可能导致加载失败。在 CMD 中输入 nvcc -V 和 nvidia-smi 验证。降低模型精度以节省显存:在“菜单-工具-高级选项-语音识别参数”中,将“CUDA数据类型”从 float32 改为 float16 或 int8。这可以显著降低显存占用并可能解决加载问题。调整识别精度参数:在同一设置区域,将“识别准确度beam_size”和“识别准确度best_of”都从默认的 5 改为 1。这能进一步减少显存需求。关闭上下文感知:在“语音识别参数”中,将“启用上下文感知”设置为 false。使用更小的模型进行测试:暂时将模型切换为 large-v3-turbo 或 medium,测试是否能正常启动识别。如果小模型可以,则问题可能出在 large-v3 与当前环境的兼容性上。检查多显卡设置:如果你有多个显卡,确保软件使用的是 4080。在“高级选项-通用设置”中,检查“多显卡模式”和“GPU同时任务数”设置。对于单张 4080,建议“GPU同时任务数”设为 1,“多显卡模式”保持未选中状态。重启软件并仅处理单个视频:关闭软件,重新启动。在翻译时,确保只处理一个视频,并勾选主界面左上角的“清理已生成”,以避免缓存干扰。如果以上步骤均无效,可能是模型文件损坏。请删除 models/models--Systran--faster-whisper-large-v3 文件夹,重新下载或从其他来源获取完整的模型文件。
During handling of the above exception, another exception occurred:
Traceback (most recent call last):
File "videotrans\task\trans_create.py", line 931, in _split_audio_byraw
File "videotrans\configure\_base.py", line 303, in _new_process
RuntimeError: 出错了,可能内存或显存不足
Traceback (most recent call last):
File "videotrans\configure\_base.py", line 285, in _new_process
File "concurrent\futures\_base.py", line 458, in result
File "concurrent\futures\_base.py", line 403, in __get_result
concurrent.futures.process.BrokenProcessPool: A process in the process pool was terminated abruptly while the future was running or pending.
[DEBUG] [语音识别]渠道0,large-v3:共耗时:6518s
Application started at 2026-04-13 05:08:13
First searching GPU...
[DEBUG] 返回缓存的编解码器 Windows-264: h264_nvenc
[DEBUG] 返回缓存的编解码器 Windows-265: hevc_nvenc
NVIDIA_GPU_NUMS=1
Found 1 GPUs, cost=8s
start workers...
process_max_gpu=1
multi_gpus=False
Concurrent task_nums=1
process_max=1
start 9 jobs
ended workers
[DEBUG] 最终配置信息:self.cfg=TaskCfgVTT(is_cuda=True, uuid='98b216f3e3', cache_folder='C:/Users/demon/Desktop/AI翻译软件/tmp/20824/98b216f3e3', target_dir='C:/Users/demon/Desktop/AIAI/YQ9055/_video_out/1-26-mp4', source_language='英语', source_language_code='en', source_sub='C:/Users/demon/Desktop/AIAI/YQ9055/_video_out/1-26-mp4/en.srt', source_wav='C:/Users/demon/Desktop/AI翻译软件/tmp/20824/98b216f3e3/en.wav', source_wav_output='C:/Users/demon/Desktop/AIAI/YQ9055/_video_out/1-26-mp4/en.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='C:/Users/demon/Desktop/AIAI/YQ9055/_video_out/1-26-mp4/zh-cn.srt', target_wav='C:/Users/demon/Desktop/AI翻译软件/tmp/20824/98b216f3e3/target.wav', target_wav_output='C:/Users/demon/Desktop/AIAI/YQ9055/_video_out/1-26-mp4/zh-cn.m4a', name='C:/Users/demon/Desktop/AIAI/YQ9055/1-26.mp4', noextname='1-26', basename='1-26.mp4', ext='mp4', dirname='C:/Users/demon/Desktop/AIAI/YQ9055', shound_del_name=None, translate_type=0, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='YunJhe(Male/TW)', voice_autorate=True, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='en', recogn_type=0, model_name='large-v3', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='biaozhun', subtitles='', targetdir_mp4='C:/Users/demon/Desktop/AIAI/YQ9055/_video_out/1-26-mp4/1-26.mp4', novoice_mp4='C:/Users/demon/Desktop/AI翻译软件/tmp/20824/98b216f3e3/novoice.mp4', is_separate=False, embed_bgm=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=1, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)
[DEBUG] [FFMPEG-CMD]:
ffmpeg -hide_banner -ignore_unknown -threads 0 -y -fflags +genpts -i C:/Users/demon/Desktop/AIAI/YQ9055/1-26.mp4 -an -c:v copy novoice.mp4
[DEBUG] [FFMPEG-CMD]:
ffmpeg -hide_banner -ignore_unknown -threads 0 -y -i C:/Users/demon/Desktop/AIAI/YQ9055/1-26.mp4 -vn -ac 1 -ar 16000 -c:a pcm_s16le C:/Users/demon/Desktop/AI翻译软件/tmp/20824/98b216f3e3/en.wav
[DEBUG] [recognition]__init__:kwargs={'detect_language': 'en', 'audio_file': 'C:/Users/demon/Desktop/AI翻译软件/tmp/20824/98b216f3e3/en.wav', 'cache_folder': 'C:/Users/demon/Desktop/AI翻译软件/tmp/20824/98b216f3e3', 'model_name': 'large-v3', 'uuid': '98b216f3e3', 'is_cuda': True, 'subtitle_type': 1, 'recogn_type': 0, 'max_speakers': -1, 'llm_post': False, 'recogn2pass': False}
[DEBUG] BaseRecogn 初始化
[DEBUG] GPU进程池:max_workers=1
问题已明确。日志显示语音识别耗时 6518 秒(约 1.8 小时)后,进程池崩溃并报错“可能内存或显存不足”。虽然你使用了 4080 显卡,但 large-v3 模型在 CUDA 下加载或处理长视频时仍可能耗尽资源。解决方案:降低模型精度和参数:这是最有效的步骤。进入“菜单-工具-高级选项-语音识别参数”,进行以下调整:将“CUDA数据类型”改为 int8。将“识别准确度beam_size”改为 1。将“识别准确度best_of”改为 1。将“启用上下文感知”设为 false。使用更小的模型:将主界面的识别模型从 large-v3 切换为 large-v3-turbo 或 medium。large-v3-turbo 是平衡速度和精度的好选择。检查视频时长和预处理:过长的视频可能导致内存累积占用过高。如果视频很长,可以尝试先将其分割为较短的片段(如 10 分钟一段)进行处理。确保未启用“分离人声背景声”和“二次识别”等额外消耗显存的功能。调整高级设置中的并发数:在“高级选项-通用设置”中,确保“GPU同时任务数”为 1。对于单次任务,也可以尝试将“最大进程数”降低(例如设为 2 或 3)。监控资源使用:在处理时,打开任务管理器,查看 GPU 显存和系统内存的使用情况。如果显存在加载模型后即接近占满,说明需要上述的精度调整。清理缓存并重启:勾选主界面左上角的“清理已生成”,然后关闭软件,重新启动,再次尝试翻译。如果以上调整后问题依旧,可能是特定视频或环境问题。请尝试使用一个时长较短(如 1 分钟)的英文视频进行测试,以排除视频本身的问题。请查阅相关文档:总是提示显存不足
我换了3分钟的视频依旧会卡住 STT use large-v3 starting
问题核心是 large-v3 模型在 CUDA 环境下初始化失败,导致进程卡死。虽然视频缩短,但模型加载阶段即出现问题。
解决方案:
- 验证 CUDA 环境:在 CMD 中运行
nvcc -V和nvidia-smi,确认 CUDA 版本为 12.8,且 4080 显卡驱动为最新。 - 强制使用 CPU 模式测试:在主界面取消勾选“CUDA加速”,然后重新运行。如果 CPU 模式下能顺利通过“STT starting...”阶段,则证明是 CUDA 环境或兼容性问题。
调整高级参数:如果必须使用 CUDA,请在“菜单-工具-高级选项-语音识别参数”中,进行以下设置:
CUDA数据类型: 改为int8识别准确度beam_size: 改为1识别准确度best_of: 改为1启用上下文感知: 设为false
- 更换模型:将识别模型从
large-v3切换为large-v3-turbo或medium。large-v3-turbo是效果和资源消耗的较好平衡。 - 检查模型文件完整性:删除
models/models--Systran--faster-whisper-large-v3文件夹,重新下载完整模型文件(确保所有.bin,.json,.txt文件齐全)。 - 以管理员身份运行:右键点击
sp.exe,选择“以管理员身份运行”,有时权限问题会影响 CUDA 资源分配。
如果强制使用 CPU 模式后问题依旧,则可能是模型文件损坏或软件环境问题。请尝试重新下载完整的软件包覆盖安装。