#1680 上传的mp4,说检测不到人声，但是播放后是有人声音的。是不是对于视频格式有什么要求

2605:7280* Posted at: 7 months ago

出错信息：download.mp4没有识别出字幕，请检查是否包含人类说话声音，以及说话语言是否和你选择的原始语言匹配
2025-11-29 22:24:27,215 - INFO - 平台: Linux。正在按优先级检测最佳的 'h264' 编码器: ['nvenc', 'vaapi', 'qsv']
2025-11-29 22:24:29,335 - INFO - 正在测试编码器是否可用: h264_nvenc...
2025-11-29 22:24:29,725 - INFO - 硬件编码器 'h264_nvenc' 可用。
2025-11-29 22:24:29,725 - INFO - 已选择硬件编码器: h264_nvenc
2025-11-29 22:24:29,725 - INFO - 最终确定使用的编码器: h264_nvenc
2025-11-29 22:52:46,125 - INFO - 本次EdgeTTS配音：重试延迟:5,出错将重试:4,并发:10
2025-11-29 22:52:54,296 - INFO - 本次EdgeTTS配音：重试延迟:5,出错将重试:4,并发:10
2025-11-29 22:53:10,495 - ERROR - [1/1]: 已达到最大重试次数，任务失败。
2025-11-29 22:53:10,495 - INFO - 执行流程：所有配音任务结束。
2025-11-29 22:53:10,496 - INFO - EdgeTTS配音结束：[1] errors, 0 succeed
2025-11-29 22:53:10,596 - INFO - 开始执行事件循环的关闭流程...
2025-11-29 22:53:10,786 - INFO - 事件循环已关闭。
2025-11-29 22:53:18,508 - ERROR - [1/1]: 已达到最大重试次数，任务失败。
2025-11-29 22:53:18,508 - INFO - 执行流程：所有配音任务结束。
2025-11-29 22:53:18,508 - INFO - EdgeTTS配音结束：[1] errors, 0 succeed
2025-11-29 22:53:18,608 - INFO - 开始执行事件循环的关闭流程...
2025-11-29 22:53:18,755 - INFO - 事件循环已关闭。
2025-11-29 22:53:52,496 - INFO - 本次EdgeTTS配音：重试延迟:5,出错将重试:4,并发:10
2025-11-29 22:53:54,316 - INFO - 执行流程：所有配音任务结束。
2025-11-29 22:53:54,440 - INFO - 开始执行事件循环的关闭流程...
2025-11-29 22:53:54,586 - INFO - 事件循环已关闭。
2025-11-29 22:54:02,536 - INFO - 本次EdgeTTS配音：重试延迟:5,出错将重试:4,并发:10
2025-11-29 22:54:03,810 - INFO - 执行流程：所有配音任务结束。
2025-11-29 22:54:03,933 - INFO - 开始执行事件循环的关闭流程...
2025-11-29 22:54:04,080 - INFO - 事件循环已关闭。
2025-11-29 22:58:10,818 - INFO - 最终配置信息：self.cfg=TaskCfg(cache_folder='/home/customer/software/pyvideotrans/tmp846870/83e1daa7b8', target_dir='/home/customer/software/pyvideotrans/output/download', remove_noise=False, is_separate=False, detect_language='zh-cn', subtitle_language=None, source_language='简体中文', target_language='英语', source_language_code='zh-cn', target_language_code='en', source_sub='/home/customer/software/pyvideotrans/output/download/zh-cn.srt', target_sub='/home/customer/software/pyvideotrans/output/download/en.srt', source_wav='/home/customer/software/pyvideotrans/tmp846870/83e1daa7b8/zh-cn.wav', source_wav_output='/home/customer/software/pyvideotrans/output/download/zh-cn.m4a', target_wav='/home/customer/software/pyvideotrans/tmp846870/83e1daa7b8/target.wav', target_wav_output='/home/customer/software/pyvideotrans/output/download/en.m4a', subtitles='', novoice_mp4='/home/customer/software/pyvideotrans/tmp846870/83e1daa7b8/novoice.mp4', noextname='download', shibie_audio=None, targetdir_mp4='/home/customer/software/pyvideotrans/output/download/download.mp4', instrument=None, vocal=None, back_audio='', background_music=None, app_mode='biaozhun', subtitle_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='Darren(Male/AU)', copysrt_rawvideo=False, clear_cache=False, translate_type=0, tts_type=0, recogn_type=0, model_name='large-v3-turbo', split_type=0, voice_autorate=True, video_autorate=False, cuda=True, name='/home/customer/software/Linly-Dubbing/Linly-Dubbing/videos/Equipment_Classification/download.mp4', basename='download.mp4', ext='mp4', dirname='/home/customer/software/Linly-Dubbing/Linly-Dubbing/videos/Equipment_Classification', shound_del_name=None, uuid='83e1daa7b8', remove_silent_mid=False, align_sub_audio=True, enable_diariz=False, nums_diariz=0, auto_fix=True)

Floor #1 DeepSeek reply at 7 months ago

从您的日志来看，问题不是视频格式不支持，而是语音识别阶段未能检测到人声，导致后续流程无法进行。日志显示最终配置中 source_sub 和 target_sub 路径为空，说明没有生成字幕文件。

请按以下步骤排查：

检查原始语言设置：在软件主界面第3行，确保“原始语言”选择正确。如果视频是中文，选择“简体中文”；如果不确定，选择“auto”。
尝试更换语音识别模型：
- 在主界面第2行“语音识别”中，将模型从 large-v3-turbo 更换为 large-v3 或 large-v2。turbo 版本在某些情况下可能不稳定。
- 或者，尝试使用 “阿里FunASR(本地)” 模型，它对中文语音识别效果通常更好。
调整VAD参数（提高识别灵敏度）：
- 点击菜单栏 工具 -> 高级选项。
- 找到“Faster/OpenAI/Whisper 语音识别微调”区域。
- 将 “语音阈值” 从默认的 0.45 调低至 0.3 或 0.2。这会使识别更灵敏，更容易捕捉到人声。
检查音频轨道：
- 使用其他播放器（如 VLC）确认视频文件确实包含清晰的人声音频轨道。
- 如果视频背景噪音很大，可以在主界面勾选“降噪”选项，或在高级选项中开启“人声分离”。
简化处理流程测试：
- 使用软件左侧的“工具箱” -> “批量语音转字幕”功能，单独对这个视频进行语音识别，看是否能成功生成字幕。

执行以上步骤后，请重新尝试处理视频。如果问题依旧，请提供 videotrans/logs/ 目录下完整的日志文件（特别是语音识别阶段的日志）以便进一步分析。

#1680 上传的mp4,说检测不到人声，但是播放后是有人声音的。是不是对于视频格式有什么要求

1 Replies

Post Your Reply

Related resource