#4188 TaskCfgSTT(is_cuda=True, uuid='ed838ee54a', cache_folder='D:/win-pyvideotrans-v3.99-417/tmp/5052/ed838ee54a', target_dir

240e:44d* Posted at: 2 months ago

语音识别阶段出错 [faster-whisper(本地)] 没有识别到任何说话声,请确认所选音视频中是否包含人类说话声，以及说话语言是否同所选一致
Traceback (most recent call last):
File "videotrans\task\job.py", line 105, in run
File "videotrans\task\_speech2text.py", line 159, in recogn
File "videotrans\recognition\__init__.py", line 293, in run
File "videotrans\recognition\_base.py", line 145, in run
RuntimeError: 没有识别到任何说话声,请确认所选音视频中是否包含人类说话声，以及说话语言是否同所选一致
TaskCfgSTT(is_cuda=True, uuid='ed838ee54a', cache_folder='D:/win-pyvideotrans-v3.99-417/tmp/5052/ed838ee54a', target_dir='D:/win-pyvideotrans-v3.99-417/output/recogn', source_language=None, source_language_code=None, source_sub=None, source_wav=None, source_wav_output=None, target_language=None, target_language_code=None, target_sub='D:/win-pyvideotrans-v3.99-417/output/recogn/Mom Shared Bed with her Son and has a Squirting Orgasm while her Dad wasnt Looking HD 1080p.srt', target_wav=None, target_wav_output=None, name='E:/DownLoad/DCL/Mom Shared Bed with her Son and has a Squirting Orgasm while her Dad wasnt Looking HD 1080p.mp4', noextname='Mom Shared Bed with her Son and has a Squirting Orgasm while her Dad wasnt Looking HD 1080p', basename='Mom Shared Bed with her Son and has a Squirting Orgasm while her Dad wasnt Looking HD 1080p.mp4', ext='mp4', dirname='E:/DownLoad/DCL', shound_del_name=None, detect_language='auto', recogn_type=0, model_name='large-v3-turbo', shibie_audio='D:/win-pyvideotrans-v3.99-417/tmp/5052/ed838ee54a/remove_noise.wav', remove_noise=True, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False)

=
system:Windows-10-10.0.26100-SP0
version:v3.99
frozen:True
language:zh
root_dir:D:/win-pyvideotrans-v3.99-417

Floor #1 DeepSeek reply at 2 months ago

这是由于视频中的语音未能被识别模型检测到导致的。可能的原因包括：视频本身不含有效人声、背景噪音过大、语言选择错误，或模型参数设置不当。

解决方案：

检查视频内容：确认视频中确实包含清晰的人声对话，而非纯音乐或环境音。
调整语言设置：在“翻译视频或音频”界面，不要选择“自动检测”，请明确指定视频中人声的发音语言（例如，视频中是英语对话，则选择“英语”）。
优化识别参数：
- 前往 菜单 -> 工具/选项 -> 高级选项。
- 在“语音识别参数”区域，调整以下设置：
  - 语音阈值：尝试降低（如设为 0.3），以提高对微弱语音的灵敏度。
  - 最长语音持续秒数：适当增加（如设为 10），避免因长句被强制分割而丢失。
  - 静音分割持续毫秒：适当增加（如设为 800），避免将短暂停顿误判为句子结束。
尝试降噪：如果视频背景音嘈杂，在主界面勾选“降噪”选项。
更换模型：如果使用 large-v3-turbo 模型失败，可尝试更换为 large-v3 或 large-v2 模型。
检查文件路径：确保视频文件的路径和名称不含特殊符号或过长。建议将文件移动到浅层目录（如 D:\video）并重命名为简短英文名。

如果以上步骤均无效，请提供以下信息以便进一步分析：

视频中人声的实际语言。
尝试取消勾选“降噪”后是否依然报错。
提供 logs 文件夹中最新日志文件的底部更多行错误信息。

#4188 TaskCfgSTT(is_cuda=True, uuid='ed838ee54a', cache_folder='D:/win-pyvideotrans-v3.99-417/tmp/5052/ed838ee54a', target_dir

1 Replies

请查阅相关文档：

Post Your Reply

Related resource