#3626 TaskCfgSTT(is_cuda=False, uuid='d8dbfbd85b', cache_folder='E:/win-pyvideotrans-v3.98-314/tmp/4316/d8dbfbd85b', target_di

2602:feda* Posted at: 4 hours ago 👁8

语音识别阶段出错 [faster-whisper(本地)] 没有识别到任何说话声,请确认所选音视频中是否包含人类说话声,以及说话语言是否同所选一致
Traceback (most recent call last):
File "videotrans\task\job.py", line 105, in run
File "videotrans\task\_speech2text.py", line 152, in recogn
File "videotrans\recognition\__init__.py", line 265, in run
File "videotrans\recognition\_base.py", line 145, in run
RuntimeError: 没有识别到任何说话声,请确认所选音视频中是否包含人类说话声,以及说话语言是否同所选一致
TaskCfgSTT(is_cuda=False, uuid='d8dbfbd85b', cache_folder='E:/win-pyvideotrans-v3.98-314/tmp/4316/d8dbfbd85b', target_dir='E:/win-pyvideotrans-v3.98-314/output/recogn', source_language=None, source_language_code=None, source_sub=None, source_wav=None, source_wav_output=None, target_language=None, target_language_code=None, target_sub='E:/win-pyvideotrans-v3.98-314/output/recogn/X_hopbxsmrmrsstt_Shawty_was_ready_to_risk_it_all_Get_video_here_httpstcoArEU4hOIh3_httpstcoOqX94ONWNF_X.srt', target_wav=None, target_wav_output=None, name='G:/X_hopbxsmrmrsstt_Shawty_was_ready_to_risk_it_all_Get_video_here_httpstcoArEU4hOIh3_httpstcoOqX94ONWNF_X.mp4', noextname='X_hopbxsmrmrsstt_Shawty_was_ready_to_risk_it_all_Get_video_here_httpstcoArEU4hOIh3_httpstcoOqX94ONWNF_X', basename='X_hopbxsmrmrsstt_Shawty_was_ready_to_risk_it_all_Get_video_here_httpstcoArEU4hOIh3_httpstcoOqX94ONWNF_X.mp4', ext='mp4', dirname='G:/', shound_del_name=None, detect_language='en', recogn_type=0, model_name='large-v2', shibie_audio='E:/win-pyvideotrans-v3.98-314/tmp/4316/d8dbfbd85b/X_hopbxsmrmrsstt_Shawty_was_ready_to_risk_it_all_Get_video_here_httpstcoArEU4hOIh3_httpstcoOqX94ONWNF_X-1773587920.8218443.wav', remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False)


=
system:Windows-10-10.0.19045-SP0
version:v3.98
frozen:True
language:zh
root_dir:E:/win-pyvideotrans-v3.98-314

1 Replies

这是由于语音识别模型未能从音频中检测到有效的语音片段导致的。从日志看,你选择了 faster-whisper(本地) 模型,原始语言设置为英语 (en),但模型未识别出任何语音。

请按以下步骤排查:

  1. 检查视频内容:确认所选视频 G:/X_hopbxsmrmrsstt_Shawty_was_ready_to_risk_it_all_Get_video_here_httpstcoArEU4hOIh3_httpstcoOqX94ONWNF_X.mp4 确实包含清晰的人声说话,且说话语言是英语。
  2. 调整语音识别参数

    • 打开 菜单-工具-高级选项
    • 【语音识别参数】 区域,将 语音阈值 适当调低(例如从默认的 0.5 调整为 0.30.2)。这会使模型对语音更敏感,但可能将部分噪音识别为语音。
    • 确保 最长语音持续秒数 设置合理(默认6秒,不要大于30秒)。
    • 确保 静音分割持续毫秒数 设置合理(默认500ms)。
  3. 开启降噪:如果视频背景音乐或噪音较大,在主界面的语音识别行勾选 降噪 选项,这会在识别前在线下载模型进行降噪处理,可能提升识别率。
  4. 验证模型和语言设置

    • 确认你选择的 faster-whisper 模型(日志显示为 large-v2)支持英语识别。以 .en 结尾或 distil- 开头的模型仅支持英语,large-v2 是多语言模型,支持英语。
    • 再次确认主界面 发音语言 下拉框选择的是 Englishen,而不是 auto
  5. 尝试其他识别渠道:如果以上调整后仍无效,可以尝试切换到其他语音识别渠道,例如 qwen-asr(本地)(对中文优化)或 openai-whisper(本地),看是否能识别出内容。
  6. 检查音频文件:可以使用其他播放软件单独播放该视频,确认音频轨道正常且人声清晰。

如果问题持续,请提供 logs 文件夹中最新日志文件的底部约30行报错信息,以便进一步分析。

请查阅相关文档:

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource