#3839 语音识别泰英的，用那个版本最好

210.79* Posted at: 3 months ago

语音识别泰英的，用那个版本最好

Floor #1 DeepSeek reply at 3 months ago

对于泰语和英语的语音识别，推荐使用 faster-whisper(本地) large-v3 模型。该模型是多语言模型，对包括泰语和英语在内的多种语言都有较好的识别效果。

具体配置步骤：

在软件主界面的“语音识别”行，选择“faster-whisper(本地)”渠道。
在右侧模型下拉列表中，选择 large-v3 模型。
在“发音语言”中，根据视频中主要使用的语言进行选择。如果视频是泰英双语，可以尝试选择“泰语”或“英语”，或者使用“批量语音转字幕”功能中的“自动检测”。
为了获得最佳效果，建议在 菜单 -> 工具 -> 高级选项 -> 语音识别参数 中，将“最长语音持续秒数”设置为6或更大，并确保已勾选“CUDA加速”（如果您的电脑有NVIDIA显卡并已安装CUDA 12.8环境）。

注意事项：

large-v3 模型对硬件要求较高。如果未启用CUDA加速，处理速度会很慢，且需要保证系统内存不低于16GB。启用CUDA加速则需要显卡显存大于10GB。
如果硬件条件有限，可以退而求其次选择 large-v2 或 medium 模型，但识别准确度会有所下降。
以 .en 结尾（如 large-v3.en）或 distil- 开头的模型仅支持英语，不能用于识别泰语。

请查阅相关文档：

Floor #2 210.79* reply at 3 months ago

Application started at 2026-03-28 20:13:12

First searching GPU...
[DEBUG] 平台: Windows。正在按优先级检测最佳的 'h264' 编码器: ['nvenc', 'qsv', 'amf']
[DEBUG] 正在测试编码器是否可用: h264_nvenc...
NVIDIA_GPU_NUMS=1
Found 1 GPUs, cost=3s
start workers...
process_max_gpu=1
multi_gpus=False
Concurrent task_nums=1
process_max=1
start 9 jobs
ended workers
[DEBUG] 硬件编码器 'h264_nvenc' 可用。
[DEBUG] 已选择硬件编码器: h264_nvenc
[DEBUG] 最终确定使用的编码器: h264_nvenc
[DEBUG] 平台: Windows。正在按优先级检测最佳的 'hevc' 编码器: ['nvenc', 'qsv', 'amf']
[DEBUG] 正在测试编码器是否可用: hevc_nvenc...
[DEBUG] 硬件编码器 'hevc_nvenc' 可用。
[DEBUG] 已选择硬件编码器: hevc_nvenc
[DEBUG] 最终确定使用的编码器: hevc_nvenc
[DEBUG] 最终配置信息：self.cfg=TaskCfgVTT(is_cuda=True, uuid='824da446a1', cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/31556/824da446a1', target_dir='C:/Users/lsl/Downloads/_video_out/nasu-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.srt', source_wav='D:/BaiduNetdiskDow
......
e=False, remove_silent_mid=False, align_sub_audio=True, detect_language='th', recogn_type=0, model_name='large-v3', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/nasu-mp4/nasu.mp4', novoice_mp4='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/9c179b471a/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)
[DEBUG] [job] 进入执行语音识别阶段 trk.cfg=TaskCfgVTT(is_cuda=False, uuid='9c179b471a', cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/9c179b471a', target_dir='C:/Users/lsl/Downloads/_video_out/nasu-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.srt', source_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/9c179b471a/th.wav', source_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.srt', target_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/9c179b471a/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.m4a', name='C:/Users/lsl/Downloads/nasu.mp4', noextname='nasu', basename='nasu.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='th', recogn_type=0, model_name='large-v3', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/nasu-mp4/nasu.mp4', novoice_mp4='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/9c179b471a/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)

[DEBUG] [recognition]__init__:kwargs={'detect_language': 'th', 'audio_file': 'D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/9c179b471a/th.wav', 'cache_folder': 'D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/9c179b471a', 'model_name': 'large-v3', 'uuid': '9c179b471a', 'is_cuda': False, 'subtitle_type': 0, 'recogn_type': 0, 'max_speakers': -1, 'llm_post': False, 'recogn2pass': False}
[DEBUG] BaseRecogn 初始化

[DEBUG] CPU进程池:max_workers=1
[DEBUG] faster-whisper模式下，对large-v3模型返回的断句结果重新修正
为什么，有时候语音识别可以有时候不行，一直卡起，又不报错

Floor #3 DeepSeek reply at 3 months ago

从日志看，问题出在使用 faster-whisper large-v3 模型进行语音识别时，程序卡住且不报错。这通常是由于模型下载失败或网络连接问题导致的。

解决方案：

检查模型下载：首次使用 faster-whisper(本地) 的 large-v3 模型时，需要从 HuggingFace 下载。如果网络不畅（尤其在国内），下载可能卡住或失败。
- 手动下载模型：这是最可靠的解决方法。请按照以下步骤操作：
  - 在软件根目录（sp.exe 所在目录）下找到 models 文件夹。
  - 在 models 文件夹内创建名为 models--Systran--faster-whisper-large-v3 的文件夹。
  - 访问模型下载地址：https://huggingface.co/Systran/faster-whisper-large-v3/tree/main。
  - 将该页面所有 .json、.bin、.txt 文件下载并复制到刚创建的文件夹内。
- 配置网络代理：如果您有可用的代理，可以在软件主界面的“网络代理地址”中填写（格式如 http://127.0.0.1:10808），然后重启软件重试。
检查CUDA加速状态：您的日志显示 is_cuda=False，这意味着软件未启用GPU加速。虽然这不会导致卡死，但会极大拖慢识别速度，可能让您误以为卡住。
- 请确保在主界面右上角勾选了 “CUDA加速”。
- 验证CUDA环境：在CMD中输入 nvcc -V 查看CUDA版本是否为12.8，输入 nvidia-smi 查看显卡状态。
使用更小的模型测试：如果手动下载 large-v3 模型后问题依旧，可能是该模型对您的硬件（尤其是内存）要求过高。请暂时切换到更小的模型（如 medium 或 small）进行测试，看是否能顺利完成识别。
清理缓存并重试：在软件主界面左上角，勾选 “清理已生成” 复选框，然后重新处理视频，以强制重新下载和识别。

如果以上步骤均无效，请提供软件安装目录下 logs 文件夹中最新日志文件的底部约30行内容，以便进一步分析。

请查阅相关文档：

Floor #4 210.79* reply at 3 months ago

Application started at 2026-03-28 20:13:12

First searching GPU...
[DEBUG] 平台: Windows。正在按优先级检测最佳的 'h264' 编码器: ['nvenc', 'qsv', 'amf']
[DEBUG] 正在测试编码器是否可用: h264_nvenc...
NVIDIA_GPU_NUMS=1
Found 1 GPUs, cost=3s
start workers...
process_max_gpu=1
multi_gpus=False
Concurrent task_nums=1
process_max=1
start 9 jobs
ended workers
[DEBUG] 硬件编码器 'h264_nvenc' 可用。
[DEBUG] 已选择硬件编码器: h264_nvenc
[DEBUG] 最终确定使用的编码器: h264_nvenc
[DEBUG] 平台: Windows。正在按优先级检测最佳的 'hevc' 编码器: ['nvenc', 'qsv', 'amf']
[DEBUG] 正在测试编码器是否可用: hevc_nvenc...
[DEBUG] 硬件编码器 'hevc_nvenc' 可用。
[DEBUG] 已选择硬件编码器: hevc_nvenc
[DEBUG] 最终确定使用的编码器: hevc_nvenc
[DEBUG] 最终配置信息：self.cfg=TaskCfgVTT(is_cuda=True, uuid='824da446a1', cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/31556/824da446a1', target_dir='C:/Users/lsl/Downloads/_video_out/nasu-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.srt', source_wav='D:/BaiduNetdiskDow
......
25c5033/th.wav', source_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.srt', target_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/99e25c5033/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.m4a', name='C:/Users/lsl/Downloads/nasu.mp4', noextname='nasu', basename='nasu.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='th', recogn_type=0, model_name='large-v3', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/nasu-mp4/nasu.mp4', novoice_mp4='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/99e25c5033/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)
[DEBUG] 最终配置信息：self.cfg=TaskCfgVTT(is_cuda=True, uuid='26ded439a0', cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/26ded439a0', target_dir='C:/Users/lsl/Downloads/_video_out/nasu-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.srt', source_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/26ded439a0/th.wav', source_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.srt', target_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/26ded439a0/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.m4a', name='C:/Users/lsl/Downloads/nasu.mp4', noextname='nasu', basename='nasu.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='th', recogn_type=0, model_name='large-v3', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/nasu-mp4/nasu.mp4', novoice_mp4='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/26ded439a0/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)
还是没有啊

Floor #5 DeepSeek reply at 3 months ago

日志显示软件已检测到GPU并启用了CUDA加速（is_cuda=True），但语音识别阶段仍然卡住。问题核心在于 faster-whisper large-v3 模型文件未正确加载。您提供的日志缺少模型下载或加载的关键信息，表明程序在初始化识别器时卡住。

解决方案：

确认模型文件已手动下载并放置正确：
- 检查路径 D:\BaiduNetdiskDownload\win-pyvideotrans-v3.98-327\models\models--Systran--faster-whisper-large-v3 是否存在。
- 确认该文件夹内包含 model.bin、config.json、tokenizer.json、vocabulary.txt 等文件（具体文件列表请参考知识库中“手动下载适用于 faster-whisper(本地) 语音识别渠道的模型”部分）。
- 关键：文件夹名称必须完全一致，不能有任何多余字符或空格。
使用国内镜像源下载模型（如果未手动下载）：
- 如果您尚未手动下载，可以尝试配置软件使用国内镜像站。
- 在软件根目录下创建或编辑 config.ini 文件（如果不存在），添加以下内容：
```
[global]
hf_mirror = https://hf-mirror.com
```
- 重启软件，并确保勾选了“清理已生成”，然后重试。
更换更小的模型进行测试：
- 为了快速排除是否是 large-v3 模型本身的问题（如下载不完整或硬件要求过高），请先在软件界面的“语音识别”行，将模型临时更换为 medium 或 small。
- 如果更换后能正常识别，则问题出在 large-v3 模型上，请重新检查第1步的手动下载文件是否完整。
检查软件安装路径：
- 您的软件安装在 D:\BaiduNetdiskDownload\...，路径较长且包含中文“百度网盘下载”。虽然知识库指出路径不宜有中文，但此处是“百度网盘下载”这个文件夹名。
- 建议：将整个 win-pyvideotrans-v3.98-327 文件夹剪切到一个更简单、无中文和空格的路径下，例如 D:\pyVideoTrans。然后重新运行软件尝试。
查看更详细的日志：
- 卡住时，请打开软件根目录下的 logs 文件夹，找到以当前日期命名的 .log 文件（例如 2026-03-28.log）。
- 打开该文件，滚动到最底部，复制最后50-100行的内容。这些内容可能包含模型加载失败的具体错误信息（如“Connection error”、“File not found”等）。

如果执行以上步骤后问题依旧，请提供最新的日志文件底部内容。

#3839 语音识别泰英的，用那个版本最好

5 Replies

请查阅相关文档：

请查阅相关文档：

请查阅相关文档：

Post Your Reply

Related resource