#3825 为什么3.98这个，语音识别不出来嘞。

103.172* Posted at: 3 months ago

为什么3.98这个，语音识别不出来嘞。

Floor #1 DeepSeek reply at 3 months ago

语音识别失败通常与模型下载、配置或环境问题有关。

检查模型下载：首次使用 faster-whisper(本地) 等渠道时，软件需在线下载模型。如果网络不畅，可能导致模型下载不完整或失败。
- 解决方法：尝试手动下载模型。例如，如需 large-v3 模型，请在软件根目录的 models 文件夹内创建 models--Systran--faster-whisper-large-v3 文件夹，然后从 HuggingFace页面下载所有 .json/.bin/.txt 文件放入该文件夹。
验证配置与路径：
- 发音语言：确保在“发音语言”下拉菜单中正确选择了视频的实际语言（如“中文”），而非“自动检测”。
- 文件路径：确保待处理的视频文件路径不含中文或特殊符号，且路径总长度不宜过长（Windows系统建议小于200字符）。将视频移动到简单目录（如 D:\video.mp4）并重命名为短英文名再试。
- CUDA加速：如果已安装NVIDIA显卡和CUDA 12.8，请务必勾选主界面右上角的“CUDA加速”。若无显卡或未安装CUDA，使用大型本地模型（如 large-v3）会极慢，可能被误认为无响应。
调整识别参数：
- 在 菜单 -> 工具 -> 高级选项 -> 语音识别参数 中，尝试调整以下设置以提高识别成功率：
  - 语音阈值：设为 0.5。
  - 最短语音持续毫秒：设为 1000。
  - 最长语音持续秒数：设为 6。
  - 静音分割持续毫秒：设为 500。
- 如果视频背景噪音大，可勾选主界面的“降噪”选项。
检查视频音轨：确认视频文件本身包含有效的音轨。某些从网站下载的视频可能音画分离。您可以用播放器打开视频，确认是否有声音。

如果以上步骤均无效，请提供软件安装目录下 logs 文件夹中最新日志文件的底部约30行报错信息，以便进一步分析。

请查阅相关文档：

Floor #2 103.172* reply at 3 months ago

Application started at 2026-03-28 02:10:19

PIL\Image.py:116: RuntimeWarning: The _imaging extension was built for another version of Pillow or PIL:
Core version: 12.1.0
Pillow version: 12.1.1
if version != getattr(core, "PILLOW_VERSION", None):
First searching GPU...
[DEBUG] 返回缓存的编解码器 Windows-264: h264_nvenc
[DEBUG] 返回缓存的编解码器 Windows-265: hevc_nvenc
NVIDIA_GPU_NUMS=1
Found 1 GPUs, cost=3s
start workers...
process_max_gpu=1
multi_gpus=False
Concurrent task_nums=1
process_max=1
start 9 jobs
ended workers
[DEBUG] 最终配置信息：self.cfg=TaskCfgVTT(is_cuda=True, uuid='035b770cce', cache_folder='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/37728/035b770cce', target_dir='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4/th.srt', source_wav='G:/VideoTrans/Trans/win-pyvideotrans-v3.
......
VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/37728/035b770cce/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=False, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=True, output_srt=0, copysrt_rawvideo=False)

[DEBUG] [recognition]__init__:kwargs={'detect_language': 'th', 'audio_file': 'G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/37728/035b770cce/th.wav', 'cache_folder': 'G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/37728/035b770cce', 'model_name': 'large-v3', 'uuid': '035b770cce', 'is_cuda': True, 'subtitle_type': 0, 'recogn_type': 0, 'max_speakers': -1, 'llm_post': False, 'recogn2pass': False}
[DEBUG] BaseRecogn 初始化

[DEBUG] GPU进程池:max_workers=1
[DEBUG] faster-whisper模式下，对large-v3模型返回的断句结果重新修正
[DEBUG] 最终配置信息：self.cfg=TaskCfgVTT(is_cuda=True, uuid='fb933011e3', cache_folder='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/37728/fb933011e3', target_dir='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4/th.srt', source_wav='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/37728/fb933011e3/th.wav', source_wav_output='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4/th.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4/zh-cn.srt', target_wav='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/37728/fb933011e3/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4/zh-cn.m4a', name='C:/Users/lsl/Downloads/Namnung and Sunny tiktok live #namnung #sunny.mp4', noextname='Namnung and Sunny tiktok live #namnung #sunny', basename='Namnung and Sunny tiktok live #namnung #sunny.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='th', recogn_type=0, model_name='large-v3', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4/Namnung and Sunny tiktok live #namnung #sunny.mp4', novoice_mp4='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/37728/fb933011e3/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=False, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=True, output_srt=0, copysrt_rawvideo=False)
为什么就是语音·识别不了嘞

Floor #3 DeepSeek reply at 3 months ago

从日志看，您已正确配置了CUDA加速（is_cuda=True），并选择了faster-whisper(本地)的large-v3模型来识别泰国语（source_language_code='th'）。识别失败最可能的原因是模型未正确加载。

请按以下步骤排查：

检查模型文件：确认 large-v3 模型文件已完整下载到正确位置。
- 前往软件安装目录下的 models 文件夹。
- 检查是否存在名为 models--Systran--faster-whisper-large-v3 的文件夹。
- 打开该文件夹，确认其中包含 model.bin、config.json、tokenizer.json 等文件。如果文件夹为空或文件不全，说明模型下载失败。
手动下载模型：如果模型文件缺失或不完整，请手动下载。
- 在 models 文件夹内创建 models--Systran--faster-whisper-large-v3 文件夹。
- 访问 HuggingFace模型页面。
- 下载页面中所有的 .bin、.json、.txt 文件（通常包括 model.bin、config.json、vocabulary.json、tokenizer.json 等）。
- 将下载的文件全部放入刚才创建的文件夹内。
尝试更小的模型：如果手动下载后问题依旧，可能是 large-v3 模型与您的环境存在兼容性问题，或对泰语支持不佳。请尝试更换模型：
- 在主界面的“语音识别”下拉菜单中，将模型从 large-v3 更换为 large-v2 或 medium。
- 或者，尝试切换为 openai-whisper(本地) 渠道，同样选择 large-v2 或 medium 模型。
检查视频音频：确保您要处理的视频文件本身音轨正常，且人物说话语言确实是泰语。可以用播放器打开视频，确认有清晰的人声。

如果完成以上步骤后问题仍然存在，请提供执行识别任务时，logs 文件夹中最新日志文件里更详细的报错信息（特别是包含 Error、Failed、not found 等关键词的段落），以便进一步分析。

#3825 为什么3.98这个，语音识别不出来嘞。

3 Replies

请查阅相关文档：

请查阅相关文档：

Post Your Reply

Related resource