#3839 语音识别泰英的,用那个版本最好

210.79* Posted at: 2 hours ago 👁14

语音识别泰英的,用那个版本最好

5 Replies

对于泰语和英语的语音识别,推荐使用 faster-whisper(本地) large-v3 模型。该模型是多语言模型,对包括泰语和英语在内的多种语言都有较好的识别效果。

具体配置步骤:

  1. 在软件主界面的“语音识别”行,选择“faster-whisper(本地)”渠道。
  2. 在右侧模型下拉列表中,选择 large-v3 模型。
  3. 在“发音语言”中,根据视频中主要使用的语言进行选择。如果视频是泰英双语,可以尝试选择“泰语”或“英语”,或者使用“批量语音转字幕”功能中的“自动检测”。
  4. 为了获得最佳效果,建议在 菜单 -> 工具 -> 高级选项 -> 语音识别参数 中,将“最长语音持续秒数”设置为6或更大,并确保已勾选“CUDA加速”(如果您的电脑有NVIDIA显卡并已安装CUDA 12.8环境)。

注意事项:

  • large-v3 模型对硬件要求较高。如果未启用CUDA加速,处理速度会很慢,且需要保证系统内存不低于16GB。启用CUDA加速则需要显卡显存大于10GB。
  • 如果硬件条件有限,可以退而求其次选择 large-v2medium 模型,但识别准确度会有所下降。
  • .en 结尾(如 large-v3.en)或 distil- 开头的模型仅支持英语,不能用于识别泰语。

请查阅相关文档:


Application started at 2026-03-28 20:13:12

First searching GPU...
[DEBUG] 平台: Windows。正在按优先级检测最佳的 'h264' 编码器: ['nvenc', 'qsv', 'amf']
[DEBUG] 正在测试编码器是否可用: h264_nvenc...
NVIDIA_GPU_NUMS=1
Found 1 GPUs, cost=3s
start workers...
process_max_gpu=1
multi_gpus=False
Concurrent task_nums=1
process_max=1
start 9 jobs
ended workers
[DEBUG] 硬件编码器 'h264_nvenc' 可用。
[DEBUG] 已选择硬件编码器: h264_nvenc
[DEBUG] 最终确定使用的编码器: h264_nvenc
[DEBUG] 平台: Windows。正在按优先级检测最佳的 'hevc' 编码器: ['nvenc', 'qsv', 'amf']
[DEBUG] 正在测试编码器是否可用: hevc_nvenc...
[DEBUG] 硬件编码器 'hevc_nvenc' 可用。
[DEBUG] 已选择硬件编码器: hevc_nvenc
[DEBUG] 最终确定使用的编码器: hevc_nvenc
[DEBUG] 最终配置信息:self.cfg=TaskCfgVTT(is_cuda=True, uuid='824da446a1', cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/31556/824da446a1', target_dir='C:/Users/lsl/Downloads/_video_out/nasu-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.srt', source_wav='D:/BaiduNetdiskDow
......
e=False, remove_silent_mid=False, align_sub_audio=True, detect_language='th', recogn_type=0, model_name='large-v3', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/nasu-mp4/nasu.mp4', novoice_mp4='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/9c179b471a/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)
[DEBUG] [job] 进入执行语音识别阶段 trk.cfg=TaskCfgVTT(is_cuda=False, uuid='9c179b471a', cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/9c179b471a', target_dir='C:/Users/lsl/Downloads/_video_out/nasu-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.srt', source_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/9c179b471a/th.wav', source_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.srt', target_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/9c179b471a/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.m4a', name='C:/Users/lsl/Downloads/nasu.mp4', noextname='nasu', basename='nasu.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='th', recogn_type=0, model_name='large-v3', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/nasu-mp4/nasu.mp4', novoice_mp4='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/9c179b471a/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)

[DEBUG] [recognition]__init__:kwargs={'detect_language': 'th', 'audio_file': 'D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/9c179b471a/th.wav', 'cache_folder': 'D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/9c179b471a', 'model_name': 'large-v3', 'uuid': '9c179b471a', 'is_cuda': False, 'subtitle_type': 0, 'recogn_type': 0, 'max_speakers': -1, 'llm_post': False, 'recogn2pass': False}
[DEBUG] BaseRecogn 初始化

[DEBUG] CPU进程池:max_workers=1
[DEBUG] faster-whisper模式下,对large-v3模型返回的断句结果重新修正
为什么,有时候语音识别可以有时候不行,一直卡起,又不报错

从日志看,问题出在使用 faster-whisper large-v3 模型进行语音识别时,程序卡住且不报错。这通常是由于模型下载失败或网络连接问题导致的。

解决方案:

  1. 检查模型下载:首次使用 faster-whisper(本地)large-v3 模型时,需要从 HuggingFace 下载。如果网络不畅(尤其在国内),下载可能卡住或失败。

    • 手动下载模型:这是最可靠的解决方法。请按照以下步骤操作:

      • 在软件根目录(sp.exe 所在目录)下找到 models 文件夹。
      • models 文件夹内创建名为 models--Systran--faster-whisper-large-v3 的文件夹。
      • 访问模型下载地址:https://huggingface.co/Systran/faster-whisper-large-v3/tree/main
      • 将该页面所有 .json.bin.txt 文件下载并复制到刚创建的文件夹内。
    • 配置网络代理:如果您有可用的代理,可以在软件主界面的“网络代理地址”中填写(格式如 http://127.0.0.1:10808),然后重启软件重试。
  2. 检查CUDA加速状态:您的日志显示 is_cuda=False,这意味着软件未启用GPU加速。虽然这不会导致卡死,但会极大拖慢识别速度,可能让您误以为卡住。

    • 请确保在主界面右上角勾选了 “CUDA加速”
    • 验证CUDA环境:在CMD中输入 nvcc -V 查看CUDA版本是否为12.8,输入 nvidia-smi 查看显卡状态。
  3. 使用更小的模型测试:如果手动下载 large-v3 模型后问题依旧,可能是该模型对您的硬件(尤其是内存)要求过高。请暂时切换到更小的模型(如 mediumsmall)进行测试,看是否能顺利完成识别。
  4. 清理缓存并重试:在软件主界面左上角,勾选 “清理已生成” 复选框,然后重新处理视频,以强制重新下载和识别。

如果以上步骤均无效,请提供软件安装目录下 logs 文件夹中最新日志文件的底部约30行内容,以便进一步分析。

请查阅相关文档:


Application started at 2026-03-28 20:13:12

First searching GPU...
[DEBUG] 平台: Windows。正在按优先级检测最佳的 'h264' 编码器: ['nvenc', 'qsv', 'amf']
[DEBUG] 正在测试编码器是否可用: h264_nvenc...
NVIDIA_GPU_NUMS=1
Found 1 GPUs, cost=3s
start workers...
process_max_gpu=1
multi_gpus=False
Concurrent task_nums=1
process_max=1
start 9 jobs
ended workers
[DEBUG] 硬件编码器 'h264_nvenc' 可用。
[DEBUG] 已选择硬件编码器: h264_nvenc
[DEBUG] 最终确定使用的编码器: h264_nvenc
[DEBUG] 平台: Windows。正在按优先级检测最佳的 'hevc' 编码器: ['nvenc', 'qsv', 'amf']
[DEBUG] 正在测试编码器是否可用: hevc_nvenc...
[DEBUG] 硬件编码器 'hevc_nvenc' 可用。
[DEBUG] 已选择硬件编码器: hevc_nvenc
[DEBUG] 最终确定使用的编码器: hevc_nvenc
[DEBUG] 最终配置信息:self.cfg=TaskCfgVTT(is_cuda=True, uuid='824da446a1', cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/31556/824da446a1', target_dir='C:/Users/lsl/Downloads/_video_out/nasu-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.srt', source_wav='D:/BaiduNetdiskDow
......
25c5033/th.wav', source_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.srt', target_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/99e25c5033/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.m4a', name='C:/Users/lsl/Downloads/nasu.mp4', noextname='nasu', basename='nasu.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='th', recogn_type=0, model_name='large-v3', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/nasu-mp4/nasu.mp4', novoice_mp4='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/99e25c5033/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)
[DEBUG] 最终配置信息:self.cfg=TaskCfgVTT(is_cuda=True, uuid='26ded439a0', cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/26ded439a0', target_dir='C:/Users/lsl/Downloads/_video_out/nasu-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.srt', source_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/26ded439a0/th.wav', source_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.srt', target_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/26ded439a0/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.m4a', name='C:/Users/lsl/Downloads/nasu.mp4', noextname='nasu', basename='nasu.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='th', recogn_type=0, model_name='large-v3', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/nasu-mp4/nasu.mp4', novoice_mp4='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/26ded439a0/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)
还是没有啊

日志显示软件已检测到GPU并启用了CUDA加速(is_cuda=True),但语音识别阶段仍然卡住。问题核心在于 faster-whisper large-v3 模型文件未正确加载。您提供的日志缺少模型下载或加载的关键信息,表明程序在初始化识别器时卡住。

解决方案:

  1. 确认模型文件已手动下载并放置正确

    • 检查路径 D:\BaiduNetdiskDownload\win-pyvideotrans-v3.98-327\models\models--Systran--faster-whisper-large-v3 是否存在。
    • 确认该文件夹内包含 model.binconfig.jsontokenizer.jsonvocabulary.txt 等文件(具体文件列表请参考知识库中“手动下载适用于 faster-whisper(本地) 语音识别渠道的模型”部分)。
    • 关键:文件夹名称必须完全一致,不能有任何多余字符或空格。
  2. 使用国内镜像源下载模型(如果未手动下载)

    • 如果您尚未手动下载,可以尝试配置软件使用国内镜像站。
    • 在软件根目录下创建或编辑 config.ini 文件(如果不存在),添加以下内容:

      [global]
      hf_mirror = https://hf-mirror.com
    • 重启软件,并确保勾选了“清理已生成”,然后重试。
  3. 更换更小的模型进行测试

    • 为了快速排除是否是 large-v3 模型本身的问题(如下载不完整或硬件要求过高),请先在软件界面的“语音识别”行,将模型临时更换为 mediumsmall
    • 如果更换后能正常识别,则问题出在 large-v3 模型上,请重新检查第1步的手动下载文件是否完整。
  4. 检查软件安装路径

    • 您的软件安装在 D:\BaiduNetdiskDownload\...,路径较长且包含中文“百度网盘下载”。虽然知识库指出路径不宜有中文,但此处是“百度网盘下载”这个文件夹名。
    • 建议:将整个 win-pyvideotrans-v3.98-327 文件夹剪切到一个更简单、无中文和空格的路径下,例如 D:\pyVideoTrans。然后重新运行软件尝试。
  5. 查看更详细的日志

    • 卡住时,请打开软件根目录下的 logs 文件夹,找到以当前日期命名的 .log 文件(例如 2026-03-28.log)。
    • 打开该文件,滚动到最底部,复制最后50-100行的内容。这些内容可能包含模型加载失败的具体错误信息(如“Connection error”、“File not found”等)。

如果执行以上步骤后问题依旧,请提供最新的日志文件底部内容。

请查阅相关文档:

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource