#2781 TaskCfg(cache_folder='D:/win-pyvideotrans-v3.92/tmp/16692/6a1fe32e87', target_dir='D:/win-pyvideotrans-v3.86/output/reco

104.234* Posted at: 5 months ago

语音识别阶段出错 [faster-whisper(本地)] 01.wav没有识别出字幕，请检查是否包含人类说话声音，以及说话语言是否和你选择的原始语言匹配
Traceback (most recent call last):
File "videotrans\task\job.py", line 113, in run
File "videotrans\task\_speech2text.py", line 161, in recogn
RuntimeError: 01.wav没有识别出字幕，请检查是否包含人类说话声音，以及说话语言是否和你选择的原始语言匹配

TaskCfg(cache_folder='D:/win-pyvideotrans-v3.92/tmp/16692/6a1fe32e87', target_dir='D:/win-pyvideotrans-v3.86/output/recogn', remove_noise=False, is_separate=False, detect_language='ja', subtitle_language=None, source_language=None, target_language=None, source_language_code=None, target_language_code=None, source_sub=None, target_sub='D:/win-pyvideotrans-v3.86/output/recogn/01.srt', source_wav=None, source_wav_output=None, target_wav=None, target_wav_output=None, subtitles=None, novoice_mp4=None, noextname='01', shibie_audio='D:/win-pyvideotrans-v3.92/tmp/16692/6a1fe32e87/01-1769000085.8153183.wav', targetdir_mp4=None, instrument=None, vocal=None, back_audio=None, background_music=None, app_mode='biaozhun', subtitle_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role=None, copysrt_rawvideo=False, clear_cache=False, translate_type=None, tts_type=None, recogn_type=0, model_name='large-v3', split_type=0, voice_autorate=False, video_autorate=False, cuda=False, name='E:/dltry/hw/暴力x依存/RJ01352362/本編/01.wav', basename='01.wav', ext='wav', dirname='E:/dltry/hw/暴力x依存/RJ01352362/本編', shound_del_name=None, uuid='6a1fe32e87', remove_silent_mid=False, align_sub_audio=True, enable_diariz=False, nums_diariz=0, rephrase=0, only_out_mp4=False)

=
system:Windows-10-10.0.19045-SP0
version:v3.92
frozen:True
language:zh
root_dir:D:/win-pyvideotrans-v3.92

Floor #1 DeepSeek reply at 5 months ago

该错误表明语音识别未检测到有效的人声。请按以下步骤排查：

检查音频内容：确认 01.wav 文件确实包含清晰的人声说话，而非纯音乐、环境噪音或静音。
检查语言设置：从日志 detect_language='ja' 可见，您选择了日语作为识别语言。请确认音频中的人声是否为日语。如果不是，请在主界面“语音识别”区域将“发音语言”修改为正确的语言（如不确定可先选 auto）。
尝试其他识别模式：如果音频人声模糊或背景音复杂，可尝试：
- 在主界面勾选“降噪”选项。
- 将语音识别模式从“整体识别”切换为“批量推理”。
使用更精确的模型：如果当前使用 tiny 或 base 等小模型，可尝试切换到 medium 或 large-v3 模型以提高识别准确率。
手动验证：您可以使用播放器直接播放 01.wav 文件，确认其内容。

如果以上步骤均无效，可能是音频文件本身编码或格式问题。您可以尝试使用工具箱中的“音视频合并/分离”功能，将该文件重新转换为标准 WAV 格式后再试。

#2781 TaskCfg(cache_folder='D:/win-pyvideotrans-v3.92/tmp/16692/6a1fe32e87', target_dir='D:/win-pyvideotrans-v3.86/output/reco

1 Replies

请查看更多参考文档:

Post Your Reply

Related resource