#3626 TaskCfgSTT(is_cuda=False, uuid='d8dbfbd85b', cache_folder='E:/win-pyvideotrans-v3.98-314/tmp/4316/d8dbfbd85b', target_di

2602:feda* Posted at: 4 months ago

语音识别阶段出错 [faster-whisper(本地)] 没有识别到任何说话声,请确认所选音视频中是否包含人类说话声，以及说话语言是否同所选一致
Traceback (most recent call last):
File "videotrans\task\job.py", line 105, in run
File "videotrans\task\_speech2text.py", line 152, in recogn
File "videotrans\recognition\__init__.py", line 265, in run
File "videotrans\recognition\_base.py", line 145, in run
RuntimeError: 没有识别到任何说话声,请确认所选音视频中是否包含人类说话声，以及说话语言是否同所选一致
TaskCfgSTT(is_cuda=False, uuid='d8dbfbd85b', cache_folder='E:/win-pyvideotrans-v3.98-314/tmp/4316/d8dbfbd85b', target_dir='E:/win-pyvideotrans-v3.98-314/output/recogn', source_language=None, source_language_code=None, source_sub=None, source_wav=None, source_wav_output=None, target_language=None, target_language_code=None, target_sub='E:/win-pyvideotrans-v3.98-314/output/recogn/X_hopbxsmrmrsstt_Shawty_was_ready_to_risk_it_all_Get_video_here_httpstcoArEU4hOIh3_httpstcoOqX94ONWNF_X.srt', target_wav=None, target_wav_output=None, name='G:/X_hopbxsmrmrsstt_Shawty_was_ready_to_risk_it_all_Get_video_here_httpstcoArEU4hOIh3_httpstcoOqX94ONWNF_X.mp4', noextname='X_hopbxsmrmrsstt_Shawty_was_ready_to_risk_it_all_Get_video_here_httpstcoArEU4hOIh3_httpstcoOqX94ONWNF_X', basename='X_hopbxsmrmrsstt_Shawty_was_ready_to_risk_it_all_Get_video_here_httpstcoArEU4hOIh3_httpstcoOqX94ONWNF_X.mp4', ext='mp4', dirname='G:/', shound_del_name=None, detect_language='en', recogn_type=0, model_name='large-v2', shibie_audio='E:/win-pyvideotrans-v3.98-314/tmp/4316/d8dbfbd85b/X_hopbxsmrmrsstt_Shawty_was_ready_to_risk_it_all_Get_video_here_httpstcoArEU4hOIh3_httpstcoOqX94ONWNF_X-1773587920.8218443.wav', remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False)

=
system:Windows-10-10.0.19045-SP0
version:v3.98
frozen:True
language:zh
root_dir:E:/win-pyvideotrans-v3.98-314

1 Replies

Floor #1 DeepSeek reply at 4 months ago

这是由于语音识别模型未能从音频中检测到有效的语音片段导致的。从日志看，你选择了 faster-whisper(本地) 模型，原始语言设置为英语 (en)，但模型未识别出任何语音。

请按以下步骤排查：

检查视频内容：确认所选视频 G:/X_hopbxsmrmrsstt_Shawty_was_ready_to_risk_it_all_Get_video_here_httpstcoArEU4hOIh3_httpstcoOqX94ONWNF_X.mp4 确实包含清晰的人声说话，且说话语言是英语。
调整语音识别参数：
- 打开 菜单-工具-高级选项。
- 在 【语音识别参数】 区域，将 语音阈值 适当调低（例如从默认的 0.5 调整为 0.3 或 0.2）。这会使模型对语音更敏感，但可能将部分噪音识别为语音。
- 确保 最长语音持续秒数 设置合理（默认6秒，不要大于30秒）。
- 确保 静音分割持续毫秒数 设置合理（默认500ms）。
开启降噪：如果视频背景音乐或噪音较大，在主界面的语音识别行勾选 降噪 选项，这会在识别前在线下载模型进行降噪处理，可能提升识别率。
验证模型和语言设置：
- 确认你选择的 faster-whisper 模型（日志显示为 large-v2）支持英语识别。以 .en 结尾或 distil- 开头的模型仅支持英语，large-v2 是多语言模型，支持英语。
- 再次确认主界面 发音语言 下拉框选择的是 English 或 en，而不是 auto。
尝试其他识别渠道：如果以上调整后仍无效，可以尝试切换到其他语音识别渠道，例如 qwen-asr(本地)（对中文优化）或 openai-whisper(本地)，看是否能识别出内容。
检查音频文件：可以使用其他播放软件单独播放该视频，确认音频轨道正常且人声清晰。

如果问题持续，请提供 logs 文件夹中最新日志文件的底部约30行报错信息，以便进一步分析。

请查阅相关文档：