#2155 TaskCfg(cache_folder='E:/AIGC/win-pyvideotrans/tmp/9628/e3de85b8ee', target_dir='e:/aigc/win-pyvideotrans/output/recogn'

223.109* Posted at: 16 hours ago 👁14

语音识别阶段出错 [faster-whisper(本地)] audio1210b.wav没有识别出字幕,请检查是否包含人类说话声音,以及说话语言是否和你选择的原始语言匹配
Traceback (most recent call last):
File "videotrans\task\job.py", line 113, in run
File "videotrans\task\_speech2text.py", line 161, in recogn
RuntimeError: audio1210b.wav没有识别出字幕,请检查是否包含人类说话声音,以及说话语言是否和你选择的原始语言匹配

TaskCfg(cache_folder='E:/AIGC/win-pyvideotrans/tmp/9628/e3de85b8ee', target_dir='e:/aigc/win-pyvideotrans/output/recogn', remove_noise=False, is_separate=False, detect_language='auto', subtitle_language=None, source_language=None, target_language=None, source_language_code=None, target_language_code=None, source_sub=None, target_sub='e:/aigc/win-pyvideotrans/output/recogn/audio1210b.srt', source_wav=None, source_wav_output=None, target_wav=None, target_wav_output=None, subtitles=None, novoice_mp4=None, noextname='audio1210b', shibie_audio='E:/AIGC/win-pyvideotrans/tmp/9628/e3de85b8ee/audio1210b-1766207528.890254.wav', targetdir_mp4=None, instrument=None, vocal=None, back_audio=None, background_music=None, app_mode='biaozhun', subtitle_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role=None, copysrt_rawvideo=False, clear_cache=False, translate_type=None, tts_type=None, recogn_type=0, model_name='large-v3-turbo', split_type=0, voice_autorate=False, video_autorate=False, cuda=False, name='E:/audio1210b.wav', basename='audio1210b.wav', ext='wav', dirname='E:/', shound_del_name=None, uuid='e3de85b8ee', remove_silent_mid=False, align_sub_audio=True, enable_diariz=False, nums_diariz=0, rephrase=0, only_out_mp4=False)


=
system:Windows-10-10.0.19045-SP0
version:v3.91
frozen:True
language:zh
root_dir:E:/AIGC/win-pyvideotrans

1 Replies

根据错误信息,faster-whisper 未能从您的音频文件 audio1210b.wav 中识别出任何字幕。这通常由以下几个原因导致,请按顺序排查:

  1. 音频内容检查:首先确认您的 audio1210b.wav 文件是否确实包含清晰的人类说话声。如果只有背景音乐、环境噪音或声音非常模糊,语音识别引擎将无法工作。
  2. 语言设置匹配:在软件主界面的“原始语言”选择中,您是否选择了正确的语言?如果音频是中文,请选择“中文”;如果是英文,请选择“英文”。如果不确定,可以尝试选择“auto(自动检测)”。
  3. VAD参数调整(语音活动检测):如果音频中人声较小或背景噪音较大,默认的语音检测阈值可能无法有效捕捉。请尝试以下调整:

    • 进入菜单栏的 工具 -> 高级选项
    • 在“Faster/OpenAI/Whisper语音识别微调”区域,找到“VAD参数”。
    • 将“语音阈值”从默认的 0.45 调低(例如改为 0.30.2),这会使检测更灵敏。
    • 将“静音分割持续毫秒”从默认的 140 调高(例如改为 300500),这有助于合并被短暂静音打断的句子。
  4. 尝试其他识别模式:在主界面“语音识别”区域,将“识别模式”从“整体识别”切换到“批量推理”。这种方式有时对某些音频的适应性更好。
  5. 降噪处理:如果音频背景噪音明显,可以在主界面勾选“降噪”选项,或在高级选项的“通用设置”中开启“降噪”,这有助于提升识别率。
  6. 更换识别模型或引擎:如果以上方法均无效,可以尝试:

    • 更换更小的识别模型(例如从 large-v3-turbo 换为 mediumsmall)。
    • 或者直接更换语音识别引擎,例如使用“阿里FunASR(本地)”,它对中文语音的识别效果通常更好。

操作建议:建议您先执行第1、2步进行基本确认。如果问题依旧,优先尝试第3步调整VAD参数,这是解决此类问题最有效的方法之一。

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Donate: https://ko-fi.com/jianchang512

Trending Questions