#2623 所有有声音的视频都提示无法识别人声

103.151* Posted at: 5 hours ago 👁9

语音识别阶段出错 [faster-whisper(本地)] 短剧.mp4没有识别出字幕,请检查是否包含人类说话声音,以及说话语言是否和你选择的原始语言匹配
Traceback (most recent call last):
File "videotrans\task\job.py", line 113, in run
File "videotrans\task\trans_create.py", line 379, in recogn
RuntimeError: 短剧.mp4没有识别出字幕,请检查是否包含人类说话声音,以及说话语言是否和你选择的原始语言匹配

TaskCfg(cache_folder='D:/Program Files/win-pyvideotrans-3.92/tmp/25912/0096076c28', target_dir='D:/BaiduNetdiskDownload/_video_out/短剧-mp4', remove_noise=False, is_separate=False, detect_language='ja', subtitle_language=None, source_language='日语', target_language='简体中文', source_language_code='ja', target_language_code='zh-cn', source_sub='D:/BaiduNetdiskDownload/_video_out/短剧-mp4/ja.srt', target_sub='D:/BaiduNetdiskDownload/_video_out/短剧-mp4/zh-cn.srt', source_wav='D:/Program Files/win-pyvideotrans-3.92/tmp/25912/0096076c28/ja.wav', source_wav_output='D:/BaiduNetdiskDownload/_video_out/短剧-mp4/ja.m4a', target_wav='D:/Program Files/win-pyvideotrans-3.92/tmp/25912/0096076c28/target.wav', target_wav_output='D:/BaiduNetdiskDownload/_video_out/短剧-mp4/zh-cn.m4a', subtitles='', novoice_mp4='D:/Program Files/win-pyvideotrans-3.92/tmp/25912/0096076c28/novoice.mp4', noextname='短剧', shibie_audio=None, targetdir_mp4='D:/BaiduNetdiskDownload/_video_out/短剧-mp4/短剧.mp4', instrument=None, vocal=None, back_audio='', background_music=None, app_mode='tiqu', subtitle_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', copysrt_rawvideo=True, clear_cache=True, translate_type=5, tts_type=0, recogn_type=0, model_name='large-v3-turbo', split_type=0, voice_autorate=False, video_autorate=False, cuda=False, name='D:/BaiduNetdiskDownload/短剧.mp4', basename='短剧.mp4', ext='mp4', dirname='D:/BaiduNetdiskDownload', shound_del_name=None, uuid='0096076c28', remove_silent_mid=False, align_sub_audio=False, enable_diariz=False, nums_diariz=0, rephrase=0, only_out_mp4=False)

1 Replies

根据错误信息,问题在于语音识别阶段未能从视频中检测到人声。这通常由以下几个原因导致,请逐一排查:

  1. 检查视频音频轨道:首先确认视频文件本身是否包含有效的人声音频。您可以使用播放器(如 VLC)播放视频,检查是否有清晰的人声对话。如果视频本身无声或只有背景音乐,软件无法识别。
  2. 调整语音识别参数:如果视频确实有人声但识别失败,可能是默认的语音检测(VAD)参数不够灵敏。

    • 在软件主界面,点击右下角的 “设置更多参数”
    • 找到 “VAD参数” 区域。
    • 尝试将 “语音阈值” 从默认的 0.45 调低(例如 0.30.2),这会使检测更灵敏,更容易捕捉到人声片段。
    • “静音分割持续毫秒” 适当调大(例如 200300),避免因短暂的静音而过度切割语音。
  3. 尝试不同的识别模式:您当前使用的是 整体识别 模式(split_type=0)。可以尝试切换到 批量推理 模式。

    • 在主界面第2行“语音识别”区域,将“识别模式”从 整体识别 改为 批量推理
    • 此模式会按时长切分音频后并行识别,对某些音频的处理效果更好。
  4. 检查语言设置:您选择的原始语言是“日语”(source_language_code='ja')。请再次确认视频中的人声语言是否为日语。如果不确定,可以将“发音语言”设置为 auto,让模型自动检测。
  5. 尝试其他识别模型或渠道

    • 如果以上方法无效,可以尝试更换更小的模型(如 medium)或使用其他识别渠道。
    • 对于中文视频,强烈推荐使用 “阿里FunASR(本地)” 渠道,它对中文语音的识别效果最佳。
    • 也可以尝试在线API渠道(如OpenAI Whisper API),但需要配置相应的API密钥。
  6. 检查文件路径和权限:从日志看,您的软件安装在 D:/Program Files/ 目录下。这是导致问题的常见原因之一Program Files 是受保护的系统目录,可能导致软件读写临时文件时权限不足。

    • 请立即将整个 pyVideoTrans 软件文件夹移动到非系统目录,例如 D:/videotrans/D:/tools/ 这样的纯英文路径下,然后重新运行软件尝试。

请按上述步骤操作,尤其是第6步(移动软件位置)和第2步(调整VAD参数),这很可能解决问题。如果问题依旧,请提供 videotrans/logs/ 目录下的最新日志文件以便进一步分析。

请查看更多参考文档:

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Donate: https://ko-fi.com/jianchang512

Trending Questions