#2623 所有有声音的视频都提示无法识别人声

103.151* Posted at: 6 months ago

语音识别阶段出错 [faster-whisper(本地)] 短剧.mp4没有识别出字幕，请检查是否包含人类说话声音，以及说话语言是否和你选择的原始语言匹配
Traceback (most recent call last):
File "videotrans\task\job.py", line 113, in run
File "videotrans\task\trans_create.py", line 379, in recogn
RuntimeError: 短剧.mp4没有识别出字幕，请检查是否包含人类说话声音，以及说话语言是否和你选择的原始语言匹配

TaskCfg(cache_folder='D:/Program Files/win-pyvideotrans-3.92/tmp/25912/0096076c28', target_dir='D:/BaiduNetdiskDownload/_video_out/短剧-mp4', remove_noise=False, is_separate=False, detect_language='ja', subtitle_language=None, source_language='日语', target_language='简体中文', source_language_code='ja', target_language_code='zh-cn', source_sub='D:/BaiduNetdiskDownload/_video_out/短剧-mp4/ja.srt', target_sub='D:/BaiduNetdiskDownload/_video_out/短剧-mp4/zh-cn.srt', source_wav='D:/Program Files/win-pyvideotrans-3.92/tmp/25912/0096076c28/ja.wav', source_wav_output='D:/BaiduNetdiskDownload/_video_out/短剧-mp4/ja.m4a', target_wav='D:/Program Files/win-pyvideotrans-3.92/tmp/25912/0096076c28/target.wav', target_wav_output='D:/BaiduNetdiskDownload/_video_out/短剧-mp4/zh-cn.m4a', subtitles='', novoice_mp4='D:/Program Files/win-pyvideotrans-3.92/tmp/25912/0096076c28/novoice.mp4', noextname='短剧', shibie_audio=None, targetdir_mp4='D:/BaiduNetdiskDownload/_video_out/短剧-mp4/短剧.mp4', instrument=None, vocal=None, back_audio='', background_music=None, app_mode='tiqu', subtitle_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', copysrt_rawvideo=True, clear_cache=True, translate_type=5, tts_type=0, recogn_type=0, model_name='large-v3-turbo', split_type=0, voice_autorate=False, video_autorate=False, cuda=False, name='D:/BaiduNetdiskDownload/短剧.mp4', basename='短剧.mp4', ext='mp4', dirname='D:/BaiduNetdiskDownload', shound_del_name=None, uuid='0096076c28', remove_silent_mid=False, align_sub_audio=False, enable_diariz=False, nums_diariz=0, rephrase=0, only_out_mp4=False)

Floor #1 DeepSeek reply at 6 months ago

根据错误信息，问题在于语音识别阶段未能从视频中检测到人声。这通常由以下几个原因导致，请逐一排查：

检查视频音频轨道：首先确认视频文件本身是否包含有效的人声音频。您可以使用播放器（如 VLC）播放视频，检查是否有清晰的人声对话。如果视频本身无声或只有背景音乐，软件无法识别。
调整语音识别参数：如果视频确实有人声但识别失败，可能是默认的语音检测（VAD）参数不够灵敏。
- 在软件主界面，点击右下角的 “设置更多参数”。
- 找到 “VAD参数” 区域。
- 尝试将 “语音阈值” 从默认的 0.45 调低（例如 0.3 或 0.2），这会使检测更灵敏，更容易捕捉到人声片段。
- 将 “静音分割持续毫秒” 适当调大（例如 200 或 300），避免因短暂的静音而过度切割语音。
尝试不同的识别模式：您当前使用的是 整体识别 模式（split_type=0）。可以尝试切换到 批量推理 模式。
- 在主界面第2行“语音识别”区域，将“识别模式”从 整体识别 改为 批量推理。
- 此模式会按时长切分音频后并行识别，对某些音频的处理效果更好。
检查语言设置：您选择的原始语言是“日语”（source_language_code='ja'）。请再次确认视频中的人声语言是否为日语。如果不确定，可以将“发音语言”设置为 auto，让模型自动检测。
尝试其他识别模型或渠道：
- 如果以上方法无效，可以尝试更换更小的模型（如 medium）或使用其他识别渠道。
- 对于中文视频，强烈推荐使用 “阿里FunASR(本地)” 渠道，它对中文语音的识别效果最佳。
- 也可以尝试在线API渠道（如OpenAI Whisper API），但需要配置相应的API密钥。
检查文件路径和权限：从日志看，您的软件安装在 D:/Program Files/ 目录下。这是导致问题的常见原因之一。Program Files 是受保护的系统目录，可能导致软件读写临时文件时权限不足。
- 请立即将整个 pyVideoTrans 软件文件夹移动到非系统目录，例如 D:/videotrans/ 或 D:/tools/ 这样的纯英文路径下，然后重新运行软件尝试。

请按上述步骤操作，尤其是第6步（移动软件位置）和第2步（调整VAD参数），这很可能解决问题。如果问题依旧，请提供 videotrans/logs/ 目录下的最新日志文件以便进一步分析。

#2623 所有有声音的视频都提示无法识别人声

1 Replies

请查看更多参考文档：

Post Your Reply

Related resource