语音识别泰英的,用那个版本最好
#3839 语音识别泰英的,用那个版本最好
5 Replies
对于泰语和英语的语音识别,推荐使用 faster-whisper(本地) large-v3 模型。该模型是多语言模型,对包括泰语和英语在内的多种语言都有较好的识别效果。
具体配置步骤:
- 在软件主界面的“语音识别”行,选择“faster-whisper(本地)”渠道。
- 在右侧模型下拉列表中,选择
large-v3模型。 - 在“发音语言”中,根据视频中主要使用的语言进行选择。如果视频是泰英双语,可以尝试选择“泰语”或“英语”,或者使用“批量语音转字幕”功能中的“自动检测”。
- 为了获得最佳效果,建议在 菜单 -> 工具 -> 高级选项 -> 语音识别参数 中,将“最长语音持续秒数”设置为6或更大,并确保已勾选“CUDA加速”(如果您的电脑有NVIDIA显卡并已安装CUDA 12.8环境)。
注意事项:
large-v3模型对硬件要求较高。如果未启用CUDA加速,处理速度会很慢,且需要保证系统内存不低于16GB。启用CUDA加速则需要显卡显存大于10GB。- 如果硬件条件有限,可以退而求其次选择
large-v2或medium模型,但识别准确度会有所下降。 - 以
.en结尾(如large-v3.en)或distil-开头的模型仅支持英语,不能用于识别泰语。
请查阅相关文档:
Application started at 2026-03-28 20:13:12
First searching GPU...
[DEBUG] 平台: Windows。正在按优先级检测最佳的 'h264' 编码器: ['nvenc', 'qsv', 'amf']
[DEBUG] 正在测试编码器是否可用: h264_nvenc...
NVIDIA_GPU_NUMS=1
Found 1 GPUs, cost=3s
start workers...
process_max_gpu=1
multi_gpus=False
Concurrent task_nums=1
process_max=1
start 9 jobs
ended workers
[DEBUG] 硬件编码器 'h264_nvenc' 可用。
[DEBUG] 已选择硬件编码器: h264_nvenc
[DEBUG] 最终确定使用的编码器: h264_nvenc
[DEBUG] 平台: Windows。正在按优先级检测最佳的 'hevc' 编码器: ['nvenc', 'qsv', 'amf']
[DEBUG] 正在测试编码器是否可用: hevc_nvenc...
[DEBUG] 硬件编码器 'hevc_nvenc' 可用。
[DEBUG] 已选择硬件编码器: hevc_nvenc
[DEBUG] 最终确定使用的编码器: hevc_nvenc
[DEBUG] 最终配置信息:self.cfg=TaskCfgVTT(is_cuda=True, uuid='824da446a1', cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/31556/824da446a1', target_dir='C:/Users/lsl/Downloads/_video_out/nasu-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.srt', source_wav='D:/BaiduNetdiskDow
......
e=False, remove_silent_mid=False, align_sub_audio=True, detect_language='th', recogn_type=0, model_name='large-v3', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/nasu-mp4/nasu.mp4', novoice_mp4='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/9c179b471a/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)
[DEBUG] [job] 进入执行语音识别阶段 trk.cfg=TaskCfgVTT(is_cuda=False, uuid='9c179b471a', cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/9c179b471a', target_dir='C:/Users/lsl/Downloads/_video_out/nasu-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.srt', source_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/9c179b471a/th.wav', source_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.srt', target_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/9c179b471a/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.m4a', name='C:/Users/lsl/Downloads/nasu.mp4', noextname='nasu', basename='nasu.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='th', recogn_type=0, model_name='large-v3', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/nasu-mp4/nasu.mp4', novoice_mp4='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/9c179b471a/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)
[DEBUG] [recognition]__init__:kwargs={'detect_language': 'th', 'audio_file': 'D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/9c179b471a/th.wav', 'cache_folder': 'D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/9c179b471a', 'model_name': 'large-v3', 'uuid': '9c179b471a', 'is_cuda': False, 'subtitle_type': 0, 'recogn_type': 0, 'max_speakers': -1, 'llm_post': False, 'recogn2pass': False}
[DEBUG] BaseRecogn 初始化
[DEBUG] CPU进程池:max_workers=1
[DEBUG] faster-whisper模式下,对large-v3模型返回的断句结果重新修正
为什么,有时候语音识别可以有时候不行,一直卡起,又不报错
从日志看,问题出在使用 faster-whisper large-v3 模型进行语音识别时,程序卡住且不报错。这通常是由于模型下载失败或网络连接问题导致的。
解决方案:
检查模型下载:首次使用
faster-whisper(本地)的large-v3模型时,需要从 HuggingFace 下载。如果网络不畅(尤其在国内),下载可能卡住或失败。手动下载模型:这是最可靠的解决方法。请按照以下步骤操作:
- 在软件根目录(
sp.exe所在目录)下找到models文件夹。 - 在
models文件夹内创建名为models--Systran--faster-whisper-large-v3的文件夹。 - 访问模型下载地址:
https://huggingface.co/Systran/faster-whisper-large-v3/tree/main。 - 将该页面所有
.json、.bin、.txt文件下载并复制到刚创建的文件夹内。
- 在软件根目录(
- 配置网络代理:如果您有可用的代理,可以在软件主界面的“网络代理地址”中填写(格式如
http://127.0.0.1:10808),然后重启软件重试。
检查CUDA加速状态:您的日志显示
is_cuda=False,这意味着软件未启用GPU加速。虽然这不会导致卡死,但会极大拖慢识别速度,可能让您误以为卡住。- 请确保在主界面右上角勾选了 “CUDA加速”。
- 验证CUDA环境:在CMD中输入
nvcc -V查看CUDA版本是否为12.8,输入nvidia-smi查看显卡状态。
- 使用更小的模型测试:如果手动下载
large-v3模型后问题依旧,可能是该模型对您的硬件(尤其是内存)要求过高。请暂时切换到更小的模型(如medium或small)进行测试,看是否能顺利完成识别。 - 清理缓存并重试:在软件主界面左上角,勾选 “清理已生成” 复选框,然后重新处理视频,以强制重新下载和识别。
如果以上步骤均无效,请提供软件安装目录下 logs 文件夹中最新日志文件的底部约30行内容,以便进一步分析。
请查阅相关文档:
Application started at 2026-03-28 20:13:12
First searching GPU...
[DEBUG] 平台: Windows。正在按优先级检测最佳的 'h264' 编码器: ['nvenc', 'qsv', 'amf']
[DEBUG] 正在测试编码器是否可用: h264_nvenc...
NVIDIA_GPU_NUMS=1
Found 1 GPUs, cost=3s
start workers...
process_max_gpu=1
multi_gpus=False
Concurrent task_nums=1
process_max=1
start 9 jobs
ended workers
[DEBUG] 硬件编码器 'h264_nvenc' 可用。
[DEBUG] 已选择硬件编码器: h264_nvenc
[DEBUG] 最终确定使用的编码器: h264_nvenc
[DEBUG] 平台: Windows。正在按优先级检测最佳的 'hevc' 编码器: ['nvenc', 'qsv', 'amf']
[DEBUG] 正在测试编码器是否可用: hevc_nvenc...
[DEBUG] 硬件编码器 'hevc_nvenc' 可用。
[DEBUG] 已选择硬件编码器: hevc_nvenc
[DEBUG] 最终确定使用的编码器: hevc_nvenc
[DEBUG] 最终配置信息:self.cfg=TaskCfgVTT(is_cuda=True, uuid='824da446a1', cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/31556/824da446a1', target_dir='C:/Users/lsl/Downloads/_video_out/nasu-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.srt', source_wav='D:/BaiduNetdiskDow
......
25c5033/th.wav', source_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.srt', target_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/99e25c5033/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.m4a', name='C:/Users/lsl/Downloads/nasu.mp4', noextname='nasu', basename='nasu.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='th', recogn_type=0, model_name='large-v3', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/nasu-mp4/nasu.mp4', novoice_mp4='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/99e25c5033/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)
[DEBUG] 最终配置信息:self.cfg=TaskCfgVTT(is_cuda=True, uuid='26ded439a0', cache_folder='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/26ded439a0', target_dir='C:/Users/lsl/Downloads/_video_out/nasu-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.srt', source_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/26ded439a0/th.wav', source_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.srt', target_wav='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/26ded439a0/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.m4a', name='C:/Users/lsl/Downloads/nasu.mp4', noextname='nasu', basename='nasu.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='th', recogn_type=0, model_name='large-v3', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/nasu-mp4/nasu.mp4', novoice_mp4='D:/BaiduNetdiskDownload/win-pyvideotrans-v3.98-327/tmp/26984/26ded439a0/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)
还是没有啊
日志显示软件已检测到GPU并启用了CUDA加速(is_cuda=True),但语音识别阶段仍然卡住。问题核心在于 faster-whisper large-v3 模型文件未正确加载。您提供的日志缺少模型下载或加载的关键信息,表明程序在初始化识别器时卡住。
解决方案:
确认模型文件已手动下载并放置正确:
- 检查路径
D:\BaiduNetdiskDownload\win-pyvideotrans-v3.98-327\models\models--Systran--faster-whisper-large-v3是否存在。 - 确认该文件夹内包含
model.bin、config.json、tokenizer.json、vocabulary.txt等文件(具体文件列表请参考知识库中“手动下载适用于 faster-whisper(本地) 语音识别渠道的模型”部分)。 - 关键:文件夹名称必须完全一致,不能有任何多余字符或空格。
- 检查路径
使用国内镜像源下载模型(如果未手动下载):
- 如果您尚未手动下载,可以尝试配置软件使用国内镜像站。
在软件根目录下创建或编辑
config.ini文件(如果不存在),添加以下内容:[global] hf_mirror = https://hf-mirror.com- 重启软件,并确保勾选了“清理已生成”,然后重试。
更换更小的模型进行测试:
- 为了快速排除是否是 large-v3 模型本身的问题(如下载不完整或硬件要求过高),请先在软件界面的“语音识别”行,将模型临时更换为
medium或small。 - 如果更换后能正常识别,则问题出在 large-v3 模型上,请重新检查第1步的手动下载文件是否完整。
- 为了快速排除是否是 large-v3 模型本身的问题(如下载不完整或硬件要求过高),请先在软件界面的“语音识别”行,将模型临时更换为
检查软件安装路径:
- 您的软件安装在
D:\BaiduNetdiskDownload\...,路径较长且包含中文“百度网盘下载”。虽然知识库指出路径不宜有中文,但此处是“百度网盘下载”这个文件夹名。 - 建议:将整个
win-pyvideotrans-v3.98-327文件夹剪切到一个更简单、无中文和空格的路径下,例如D:\pyVideoTrans。然后重新运行软件尝试。
- 您的软件安装在
查看更详细的日志:
- 卡住时,请打开软件根目录下的
logs文件夹,找到以当前日期命名的.log文件(例如2026-03-28.log)。 - 打开该文件,滚动到最底部,复制最后50-100行的内容。这些内容可能包含模型加载失败的具体错误信息(如“Connection error”、“File not found”等)。
- 卡住时,请打开软件根目录下的
如果执行以上步骤后问题依旧,请提供最新的日志文件底部内容。