#2781 TaskCfg(cache_folder='D:/win-pyvideotrans-v3.92/tmp/16692/6a1fe32e87', target_dir='D:/win-pyvideotrans-v3.86/output/reco

104.234* Posted at: 6 days ago 👁24

语音识别阶段出错 [faster-whisper(本地)] 01.wav没有识别出字幕,请检查是否包含人类说话声音,以及说话语言是否和你选择的原始语言匹配
Traceback (most recent call last):
File "videotrans\task\job.py", line 113, in run
File "videotrans\task\_speech2text.py", line 161, in recogn
RuntimeError: 01.wav没有识别出字幕,请检查是否包含人类说话声音,以及说话语言是否和你选择的原始语言匹配

TaskCfg(cache_folder='D:/win-pyvideotrans-v3.92/tmp/16692/6a1fe32e87', target_dir='D:/win-pyvideotrans-v3.86/output/recogn', remove_noise=False, is_separate=False, detect_language='ja', subtitle_language=None, source_language=None, target_language=None, source_language_code=None, target_language_code=None, source_sub=None, target_sub='D:/win-pyvideotrans-v3.86/output/recogn/01.srt', source_wav=None, source_wav_output=None, target_wav=None, target_wav_output=None, subtitles=None, novoice_mp4=None, noextname='01', shibie_audio='D:/win-pyvideotrans-v3.92/tmp/16692/6a1fe32e87/01-1769000085.8153183.wav', targetdir_mp4=None, instrument=None, vocal=None, back_audio=None, background_music=None, app_mode='biaozhun', subtitle_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role=None, copysrt_rawvideo=False, clear_cache=False, translate_type=None, tts_type=None, recogn_type=0, model_name='large-v3', split_type=0, voice_autorate=False, video_autorate=False, cuda=False, name='E:/dltry/hw/暴力x依存/RJ01352362/本編/01.wav', basename='01.wav', ext='wav', dirname='E:/dltry/hw/暴力x依存/RJ01352362/本編', shound_del_name=None, uuid='6a1fe32e87', remove_silent_mid=False, align_sub_audio=True, enable_diariz=False, nums_diariz=0, rephrase=0, only_out_mp4=False)


=
system:Windows-10-10.0.19045-SP0
version:v3.92
frozen:True
language:zh
root_dir:D:/win-pyvideotrans-v3.92

1 Replies

该错误表明语音识别未检测到有效的人声。请按以下步骤排查:

  1. 检查音频内容:确认 01.wav 文件确实包含清晰的人声说话,而非纯音乐、环境噪音或静音。
  2. 检查语言设置:从日志 detect_language='ja' 可见,您选择了日语作为识别语言。请确认音频中的人声是否为日语。如果不是,请在主界面“语音识别”区域将“发音语言”修改为正确的语言(如不确定可先选 auto)。
  3. 尝试其他识别模式:如果音频人声模糊或背景音复杂,可尝试:

    • 在主界面勾选“降噪”选项。
    • 将语音识别模式从“整体识别”切换为“批量推理”。
  4. 使用更精确的模型:如果当前使用 tinybase 等小模型,可尝试切换到 mediumlarge-v3 模型以提高识别准确率。
  5. 手动验证:您可以使用播放器直接播放 01.wav 文件,确认其内容。

如果以上步骤均无效,可能是音频文件本身编码或格式问题。您可以尝试使用工具箱中的“音视频合并/分离”功能,将该文件重新转换为标准 WAV 格式后再试。

请查看更多参考文档:

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource