#3825 为什么3.98这个,语音识别不出来嘞。

103.172* Posted at: 3 hours ago 👁10

为什么3.98这个,语音识别不出来嘞。

3 Replies

语音识别失败通常与模型下载、配置或环境问题有关。

  1. 检查模型下载:首次使用 faster-whisper(本地) 等渠道时,软件需在线下载模型。如果网络不畅,可能导致模型下载不完整或失败。

    • 解决方法:尝试手动下载模型。例如,如需 large-v3 模型,请在软件根目录的 models 文件夹内创建 models--Systran--faster-whisper-large-v3 文件夹,然后从 HuggingFace页面 下载所有 .json/.bin/.txt 文件放入该文件夹。
  2. 验证配置与路径

    • 发音语言:确保在“发音语言”下拉菜单中正确选择了视频的实际语言(如“中文”),而非“自动检测”。
    • 文件路径:确保待处理的视频文件路径不含中文或特殊符号,且路径总长度不宜过长(Windows系统建议小于200字符)。将视频移动到简单目录(如 D:\video.mp4)并重命名为短英文名再试。
    • CUDA加速:如果已安装NVIDIA显卡和CUDA 12.8,请务必勾选主界面右上角的“CUDA加速”。若无显卡或未安装CUDA,使用大型本地模型(如 large-v3)会极慢,可能被误认为无响应。
  3. 调整识别参数

    • 菜单 -> 工具 -> 高级选项 -> 语音识别参数 中,尝试调整以下设置以提高识别成功率:

      • 语音阈值:设为 0.5
      • 最短语音持续毫秒:设为 1000
      • 最长语音持续秒数:设为 6
      • 静音分割持续毫秒:设为 500
    • 如果视频背景噪音大,可勾选主界面的“降噪”选项。
  4. 检查视频音轨:确认视频文件本身包含有效的音轨。某些从网站下载的视频可能音画分离。您可以用播放器打开视频,确认是否有声音。

如果以上步骤均无效,请提供软件安装目录下 logs 文件夹中最新日志文件的底部约30行报错信息,以便进一步分析。

请查阅相关文档:


Application started at 2026-03-28 02:10:19

PIL\Image.py:116: RuntimeWarning: The _imaging extension was built for another version of Pillow or PIL:
Core version: 12.1.0
Pillow version: 12.1.1
if version != getattr(core, "PILLOW_VERSION", None):
First searching GPU...
[DEBUG] 返回缓存的编解码器 Windows-264: h264_nvenc
[DEBUG] 返回缓存的编解码器 Windows-265: hevc_nvenc
NVIDIA_GPU_NUMS=1
Found 1 GPUs, cost=3s
start workers...
process_max_gpu=1
multi_gpus=False
Concurrent task_nums=1
process_max=1
start 9 jobs
ended workers
[DEBUG] 最终配置信息:self.cfg=TaskCfgVTT(is_cuda=True, uuid='035b770cce', cache_folder='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/37728/035b770cce', target_dir='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4/th.srt', source_wav='G:/VideoTrans/Trans/win-pyvideotrans-v3.
......
VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/37728/035b770cce/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=False, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=True, output_srt=0, copysrt_rawvideo=False)

[DEBUG] [recognition]__init__:kwargs={'detect_language': 'th', 'audio_file': 'G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/37728/035b770cce/th.wav', 'cache_folder': 'G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/37728/035b770cce', 'model_name': 'large-v3', 'uuid': '035b770cce', 'is_cuda': True, 'subtitle_type': 0, 'recogn_type': 0, 'max_speakers': -1, 'llm_post': False, 'recogn2pass': False}
[DEBUG] BaseRecogn 初始化

[DEBUG] GPU进程池:max_workers=1
[DEBUG] faster-whisper模式下,对large-v3模型返回的断句结果重新修正
[DEBUG] 最终配置信息:self.cfg=TaskCfgVTT(is_cuda=True, uuid='fb933011e3', cache_folder='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/37728/fb933011e3', target_dir='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4/th.srt', source_wav='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/37728/fb933011e3/th.wav', source_wav_output='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4/th.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4/zh-cn.srt', target_wav='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/37728/fb933011e3/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4/zh-cn.m4a', name='C:/Users/lsl/Downloads/Namnung and Sunny tiktok live #namnung #sunny.mp4', noextname='Namnung and Sunny tiktok live #namnung #sunny', basename='Namnung and Sunny tiktok live #namnung #sunny.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='th', recogn_type=0, model_name='large-v3', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4/Namnung and Sunny tiktok live #namnung #sunny.mp4', novoice_mp4='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/37728/fb933011e3/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=False, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=True, output_srt=0, copysrt_rawvideo=False)
为什么就是语音·识别不了嘞

从日志看,您已正确配置了CUDA加速(is_cuda=True),并选择了faster-whisper(本地)large-v3模型来识别泰国语(source_language_code='th')。识别失败最可能的原因是模型未正确加载

请按以下步骤排查:

  1. 检查模型文件:确认 large-v3 模型文件已完整下载到正确位置。

    • 前往软件安装目录下的 models 文件夹。
    • 检查是否存在名为 models--Systran--faster-whisper-large-v3 的文件夹。
    • 打开该文件夹,确认其中包含 model.binconfig.jsontokenizer.json 等文件。如果文件夹为空或文件不全,说明模型下载失败。
  2. 手动下载模型:如果模型文件缺失或不完整,请手动下载。

    • models 文件夹内创建 models--Systran--faster-whisper-large-v3 文件夹。
    • 访问 HuggingFace模型页面
    • 下载页面中所有的 .bin.json.txt 文件(通常包括 model.binconfig.jsonvocabulary.jsontokenizer.json 等)。
    • 将下载的文件全部放入刚才创建的文件夹内。
  3. 尝试更小的模型:如果手动下载后问题依旧,可能是 large-v3 模型与您的环境存在兼容性问题,或对泰语支持不佳。请尝试更换模型:

    • 在主界面的“语音识别”下拉菜单中,将模型从 large-v3 更换为 large-v2medium
    • 或者,尝试切换为 openai-whisper(本地) 渠道,同样选择 large-v2medium 模型。
  4. 检查视频音频:确保您要处理的视频文件本身音轨正常,且人物说话语言确实是泰语。可以用播放器打开视频,确认有清晰的人声。

如果完成以上步骤后问题仍然存在,请提供执行识别任务时,logs 文件夹中最新日志文件里更详细的报错信息(特别是包含 ErrorFailednot found 等关键词的段落),以便进一步分析。

请查阅相关文档:

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource