#3828 Application started at 2026-03-28 03:10:11 PIL\Image.py:116: RuntimeWarning: The _imaging extension was built for anothe

154.64* Posted at: 2 hours ago 👁29


Application started at 2026-03-28 03:10:11

PIL\Image.py:116: RuntimeWarning: The _imaging extension was built for another version of Pillow or PIL:
Core version: 12.1.0
Pillow version: 12.1.1
if version != getattr(core, "PILLOW_VERSION", None):
First searching GPU...
[DEBUG] 返回缓存的编解码器 Windows-264: h264_nvenc
[DEBUG] 返回缓存的编解码器 Windows-265: hevc_nvenc
NVIDIA_GPU_NUMS=1
Found 1 GPUs, cost=4s
start workers...
process_max_gpu=1
multi_gpus=False
Concurrent task_nums=1
process_max=1
start 9 jobs
ended workers
[DEBUG] 最终配置信息:self.cfg=TaskCfgVTT(is_cuda=True, uuid='4fbcee1351', cache_folder='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/6852/4fbcee1351', target_dir='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4/th.srt', source_wav='G:/VideoTrans/Trans/win-pyvideotrans-v3.9
......
cee1351/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4/zh-cn.m4a', name='C:/Users/lsl/Downloads/Namnung and Sunny tiktok live #namnung #sunny.mp4', noextname='Namnung and Sunny tiktok live #namnung #sunny', basename='Namnung and Sunny tiktok live #namnung #sunny.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='th', recogn_type=0, model_name='large-v3', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4/Namnung and Sunny tiktok live #namnung #sunny.mp4', novoice_mp4='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/6852/4fbcee1351/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)

[DEBUG] [recognition]__init__:kwargs={'detect_language': 'th', 'audio_file': 'G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/6852/4fbcee1351/th.wav', 'cache_folder': 'G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/6852/4fbcee1351', 'model_name': 'large-v3', 'uuid': '4fbcee1351', 'is_cuda': True, 'subtitle_type': 0, 'recogn_type': 0, 'max_speakers': -1, 'llm_post': False, 'recogn2pass': False}
[DEBUG] BaseRecogn 初始化

[DEBUG] GPU进程池:max_workers=1
[DEBUG] faster-whisper模式下,对large-v3模型返回的断句结果重新修正
[DEBUG] 最终配置信息:self.cfg=TaskCfgVTT(is_cuda=True, uuid='cac82f0290', cache_folder='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/6852/cac82f0290', target_dir='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4/th.srt', source_wav='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/6852/cac82f0290/th.wav', source_wav_output='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4/th.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4/zh-cn.srt', target_wav='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/6852/cac82f0290/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4/zh-cn.m4a', name='C:/Users/lsl/Downloads/Namnung and Sunny tiktok live #namnung #sunny.mp4', noextname='Namnung and Sunny tiktok live #namnung #sunny', basename='Namnung and Sunny tiktok live #namnung #sunny.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='th', recogn_type=0, model_name='medium.en', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4/Namnung and Sunny tiktok live #namnung #sunny.mp4', novoice_mp4='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/6852/cac82f0290/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)
为什么我的语音识别就是识别出出来,用largev3,mediue,这些都不行,点了cuda加速

25 Replies

这是由于使用了仅支持英语的语音识别模型来处理泰语视频导致的。

从日志中可以看到,您选择了 faster-whisper(本地) 渠道,并尝试了 large-v3medium.en 模型。问题在于:

  1. large-v3 模型:虽然是多语言模型,但对泰语等小语种的支持效果可能不佳。
  2. medium.en 模型:以 .en 结尾的模型是英语专用模型,仅能识别英语发音的视频,完全无法处理泰语。

解决方案:

  1. 更换语音识别渠道和模型

    • 首选(免费):在“语音识别”下拉菜单中,选择 faster-whisper(本地),并在右侧模型选择中,确保使用不带 .en 后缀的模型,例如 large-v3。虽然对泰语支持有限,但这是免费本地模型中最好的选择。
    • 最佳(收费):对于泰语等小语种,知识库推荐使用在线AI大模型识别,效果更好。您可以尝试:

      • Gemini大模型识别:需要配置API Key和网络代理。
      • OpenAI语音识别API:需要配置API Key和网络代理。
  2. 确认原始语言设置
    在“发音语言”下拉列表中,必须明确选择 泰国语(或 th),不能选择 auto(自动检测)。在视频翻译功能中,明确指定原始语言是必需的。
  3. 优化识别参数(如果继续使用本地模型)
    进入 菜单 -> 工具 -> 高级选项 -> 语音识别参数,进行如下调整以提高泰语识别率:

    • 语音阈值:设为 0.5
    • 最长语音持续秒数:设为 6
    • 静音分割持续毫秒:设为 500
    • 如果视频背景嘈杂,可以勾选主界面的 降噪 选项。

操作步骤总结:

  1. 在主界面“语音识别”处,选择 faster-whisper(本地),并确保模型为 large-v3(非 .en 版本)。
  2. 在“发音语言”处,明确选择 泰国语
  3. 如果识别效果仍不理想,考虑切换到 Gemini大模型识别OpenAI语音识别API 等收费渠道。
  4. 如需调整参数,按上述第3点进入高级选项进行设置。

请查阅相关文档:

large-v3用这个,也是识别不出来啊,什么原因啊,这个3.98的

这是由于视频文件路径过长且包含特殊字符(#号)导致处理失败。

从日志中可以看到,您的视频文件路径为:
C:/Users/lsl/Downloads/Namnung and Sunny tiktok live #namnung #sunny.mp4

问题核心原因:

  1. 路径过长:从盘符到文件名总字符数过多,接近或超过Windows命令行限制(约260字符)。
  2. 特殊字符:文件名中包含 # 符号,这在命令行处理中可能导致解析错误。
  3. 缓存清理:您已勾选“清理已生成”,但路径问题导致软件无法正常读取或处理源文件。

解决方案:

  1. 重命名并移动文件

    • 将视频文件从 C:/Users/lsl/Downloads/ 移动到一个更浅的目录,例如 D:\D:\videos
    • 将视频文件名重命名为一个简短的、仅包含英文或数字的名称,例如 test.mp4必须删除所有特殊符号(如 #)和空格
  2. 使用软件处理

    • 使用重命名后的新文件路径(如 D:\test.mp4)在软件中重新选择视频进行处理。
  3. 检查CUDA加速

    • 确保主界面右上角的 CUDA加速 复选框已勾选。
    • 在CMD中输入 nvidia-smi 确认显卡驱动正常,并确认已安装CUDA 12.8。

操作步骤总结:

  1. 将视频文件 Namnung and Sunny tiktok live #namnung #sunny.mp4 复制到 D:\ 根目录。
  2. 将其重命名为 test.mp4(或类似的短名)。
  3. 在pyVideoTrans中,点击“选择音频或视频”,选择 D:\test.mp4
  4. 确保“发音语言”选择“泰国语”,“语音识别”选择 faster-whisper(本地)large-v3 模型,并勾选“CUDA加速”。
  5. 点击“开始翻译”。

请查阅相关文档:

已经弄成这样,


Application started at 2026-03-28 03:10:11

PIL\Image.py:116: RuntimeWarning: The _imaging extension was built for another version of Pillow or PIL:
Core version: 12.1.0
Pillow version: 12.1.1
if version != getattr(core, "PILLOW_VERSION", None):
First searching GPU...
[DEBUG] 返回缓存的编解码器 Windows-264: h264_nvenc
[DEBUG] 返回缓存的编解码器 Windows-265: hevc_nvenc
NVIDIA_GPU_NUMS=1
Found 1 GPUs, cost=4s
start workers...
process_max_gpu=1
multi_gpus=False
Concurrent task_nums=1
process_max=1
start 9 jobs
ended workers
[DEBUG] 最终配置信息:self.cfg=TaskCfgVTT(is_cuda=True, uuid='4fbcee1351', cache_folder='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/6852/4fbcee1351', target_dir='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4/th.srt', source_wav='G:/VideoTrans/Trans/win-pyvideotra
......
o=True, detect_language='th', recogn_type=0, model_name='large-v3', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/nasu-mp4/nasu.mp4', novoice_mp4='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/22436/c796163f27/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)
[DEBUG] [job] 进入执行语音识别阶段 trk.cfg=TaskCfgVTT(is_cuda=True, uuid='c796163f27', cache_folder='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/22436/c796163f27', target_dir='C:/Users/lsl/Downloads/_video_out/nasu-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.srt', source_wav='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/22436/c796163f27/th.wav', source_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.srt', target_wav='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/22436/c796163f27/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.m4a', name='C:/Users/lsl/Downloads/nasu.mp4', noextname='nasu', basename='nasu.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='th', recogn_type=0, model_name='large-v3', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/nasu-mp4/nasu.mp4', novoice_mp4='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/22436/c796163f27/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)

[DEBUG] [recognition]__init__:kwargs={'detect_language': 'th', 'audio_file': 'G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/22436/c796163f27/th.wav', 'cache_folder': 'G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/22436/c796163f27', 'model_name': 'large-v3', 'uuid': 'c796163f27', 'is_cuda': True, 'subtitle_type': 0, 'recogn_type': 0, 'max_speakers': -1, 'llm_post': False, 'recogn2pass': False}
[DEBUG] BaseRecogn 初始化

[DEBUG] GPU进程池:max_workers=1
[DEBUG] faster-whisper模式下,对large-v3模型返回的断句结果重新修正
正在等待线程 SpeechToText 结束...
Successfully killed ffmpeg processes ,using taskkill
语音视频没有那个特殊符号的,但是还是语音识别不了

从日志看,软件已进入语音识别阶段并开始处理,但最终进程被终止(Successfully killed ffmpeg processes),导致识别失败。这通常是由于视频本身不含有效音轨或音频格式问题。

核心原因: 视频文件可能不含有效音轨,或音轨格式异常,导致语音识别模块无法提取音频进行处理。

解决方案:

  1. 验证视频音轨:

    • 使用其他播放器(如 VLC、PotPlayer)打开 C:/Users/lsl/Downloads/nasu.mp4,确认视频有声音且播放正常。
    • 如果视频本身是无声的(例如从某些平台下载的视频可能音画分离),则软件会因“不含音轨”而失败。
  2. 检查音频提取:

    • 软件在识别前会调用 ffmpeg 从视频中提取音频(th.wav)。日志显示进程被终止,可能是 ffmpeg 提取音频失败。
    • 临时解决方案:您可以尝试手动将视频转换为标准音频格式(如 WAV 或 MP3),然后使用软件的“批量语音转字幕”功能单独处理音频文件。

      • 使用格式工厂等工具,将 nasu.mp4 转换为 nasu.wav(采样率 16kHz,单声道为佳)。
      • 在 pyVideoTrans 左侧功能面板选择“批量语音转字幕”。
      • 选择转换后的 nasu.wav 文件,设置“原始语言”为“泰国语”,选择识别模型,进行识别。
  3. 调整高级参数(如果音轨存在但识别失败):

    • 进入 菜单 -> 工具 -> 高级选项 -> 语音识别参数
    • 尝试调整以下参数,以应对可能存在的低音量或背景噪音:

      • 语音阈值:从 0.5 降低0.30.2,提高对微弱语音的灵敏度。
      • 最长语音持续秒数:确保不是过小的值(如1秒),可设为 6
      • 静音分割持续毫秒:设为 500
    • 在主界面,勾选 降噪 选项。
  4. 尝试其他语音识别渠道(针对泰语):

    • faster-whisper 的 large-v3 模型对泰语等小语种支持有限。如果上述步骤无效,建议切换渠道。
    • 最佳选择(收费):在“语音识别”下拉菜单中,选择 Gemini大模型识别OpenAI语音识别API。这些在线大模型对小语种识别效果更好,但需要配置API Key和网络代理。

操作步骤总结:

  1. 先用播放器确认 nasu.mp4 视频文件本身有声音。
  2. 如果有声音但软件识别失败,尝试手动转换视频为 WAV 音频,并用“批量语音转字幕”功能处理。
  3. 或调整高级识别参数(降低语音阈值、开启降噪)。
  4. 若仍无效,考虑换用 Gemini大模型识别 等在线AI识别渠道。

请查阅相关文档:

有声音的啊MP4

既然视频有声音,但语音识别进程被终止,这通常是由于音频格式不标准或软件内部处理音频时出错导致的。

核心原因:ffmpeg 在提取或处理视频中的音频流时遇到问题,导致进程被强制终止。

解决方案

  1. 使用软件内置工具重新提取音频

    • 在软件左侧功能面板,选择 批量从视频中分离出音频
    • 选择您的 nasu.mp4 文件,将其转换为标准的 WAV 或 M4A 格式。
    • 转换完成后,使用左侧的 批量语音转字幕 功能,选择刚生成的音频文件,设置“原始语言”为“泰国语”,再次尝试识别。这可以绕过视频直接处理音频,验证是否是音频提取环节的问题。
  2. 检查并调整高级语音识别参数

    • 进入 菜单 -> 工具 -> 高级选项 -> 语音识别参数
    • 进行如下调整,以适应可能的音频特性:

      • 语音阈值:从默认的 0.5 降低到 0.3
      • 最长语音持续秒数:设为 6
      • 静音分割持续毫秒:设为 500
    • 在主界面,勾选 降噪 选项。
  3. 验证 CUDA 环境和模型

    • 确认主界面右上角的 CUDA加速 复选框已勾选。
    • 在 CMD 中输入 nvidia-smi,确认显卡驱动正常且显存充足。
    • faster-whisperlarge-v3 模型对泰语支持有限。如果识别结果依然为空,可以尝试:

      • 在“语音识别”下拉菜单中,切换到 openai-whisper(本地) 渠道,同样选择 large-v3 模型再试一次。
      • 或者,这是针对小语种的最佳方案:切换到 Gemini大模型识别OpenAI语音识别API 等在线AI渠道(需配置API Key和网络代理)。
  4. 检查软件安装路径

    • 您的软件安装在 G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/。请确保该路径没有中文或特殊符号,且您拥有该目录的完全读写权限。

操作步骤总结

  1. 先用“批量从视频中分离出音频”功能,将视频转为音频文件。
  2. 用“批量语音转字幕”功能处理生成的音频文件。
  3. 如果失败,调整高级语音识别参数并开启降噪。
  4. 如果仍失败,尝试切换语音识别渠道(openai-whisper 或 在线AI渠道)。

请查阅相关文档

C:\Users\lsl>nvidia-smi
Sat Mar 28 03:42:17 2026
+























-+
| NVIDIA-SMI 581.80 Driver Version: 581.80 CUDA Version: 13.0 |
+









-+





+




--+
| GPU Name Driver-Model | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|









=+





+




==|
| 0 NVIDIA GeForce RTX 3060 ... WDDM | 00000000:01:00.0 On | N/A |
| N/A 56C P0 28W / 105W | 1079MiB / 6144MiB | 2% Default |
| | | N/A |
+









-+





+




--+

+























-+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|





















=|
| 0 N/A N/A 4204 C+G ...Chrome\Application\chrome.exe N/A |
| 0 N/A N/A 4664 C+G ...Next\CNext\RadeonSoftware.exe N/A |
| 0 N/A N/A 9228 C+G C:\Windows\explorer.exe N/A |
| 0 N/A N/A 13292 C+G ...xyewy\ShellExperienceHost.exe N/A |
| 0 N/A N/A 13520 C+G ...y\StartMenuExperienceHost.exe N/A |
| 0 N/A N/A 15468 C+G ...11.28973.206\QQPCExternal.exe N/A |
| 0 N/A N/A 16380 C+G ..._cw5n1h2txyewy\SearchHost.exe N/A |
| 0 N/A N/A 16756 C+G ...ogram Files\ToDesk\ToDesk.exe N/A |
| 0 N/A N/A 17208 C+G ...Chrome\Application\chrome.exe N/A |
| 0 N/A N/A 18180 C+G ...mba6cd70vzyy\ArmouryCrate.exe N/A |
| 0 N/A N/A 18936 C+G ...5n1h2txyewy\TextInputHost.exe N/A |
| 0 N/A N/A 19168 C+G ...11.28973.206\QQPCExternal.exe N/A |
| 0 N/A N/A 19896 C+G ...8bbwe\PhoneExperienceHost.exe N/A |
| 0 N/A N/A 20736 C+G ...yb3d8bbwe\WindowsTerminal.exe N/A |
| 0 N/A N/A 20944 C+G ...D\CNext\CNext\AMDRSSrcExt.exe N/A |
| 0 N/A N/A 21952 C+G ...t\Edge\Application\msedge.exe N/A |
| 0 N/A N/A 22796 C+G ...les\AweSun\flutter\AweSun.exe N/A |
| 0 N/A N/A 23376 C+G ...acted\runtime\WeChatAppEx.exe N/A |
| 0 N/A N/A 23700 C+G ....0.3856.84\msedgewebview2.exe N/A |
| 0 N/A N/A 23732 C+G ...rive Mount\RaiDrive.Mount.exe N/A |
| 0 N/A N/A 24860 C+G ...6hy\Build\Plugins\Mpv\mpv.exe N/A |
| 0 N/A N/A 24920 C+G ...7hta09mmv6hy\Build\Lively.exe N/A |
| 0 N/A N/A 25092 C+G ...a09mmv6hy\Lively.UI.WinUI.exe N/A |
| 0 N/A N/A 26588 C+G ....0.3856.84\msedgewebview2.exe N/A |
+





















-+
这个是CUDA

您的 CUDA 版本是 13.0,而 pyVideoTrans 软件内置支持的是 CUDA 12.8。版本不兼容是导致语音识别进程被终止或无法正常使用 GPU 加速的根本原因。核心原因:CUDA 版本不匹配。软件要求 CUDA 12.8,而您的系统是 CUDA 13.0。解决方案:降级 CUDA 至 12.8:这是最直接的解决方案。您需要卸载当前的 CUDA 13.0 驱动和工具包,然后重新安装 CUDA 12.8 及对应的 cuDNN 9.x 版本。具体步骤可参考知识库中的安装指南。在降级前,请先备份重要数据。尝试使用 CPU 模式(不推荐,速度极慢):在主界面,取消勾选右上角的 CUDA加速 复选框。这将强制软件使用 CPU 进行语音识别。请注意,使用 large-v3 模型在 CPU 上运行会非常缓慢,且需要大量内存(建议 16GB 以上)。验证软件内置 CUDA 支持:软件包内可能已包含必要的 CUDA 运行时库。请确保您使用的是从官网下载的完整预打包版(.7z 压缩包),而不是升级补丁包。完整包应包含所有必要的依赖。如果问题依旧,可以尝试在 菜单 -> 工具 -> 高级选项 -> 语音识别参数 中,将 CUDA数据类型 从 default 改为 float16 或 int8,以降低显存需求并尝试兼容。操作步骤总结(首选):备份当前工作。从 NVIDIA 官网下载并安装 CUDA 12.8 工具包。下载并安装与之匹配的 cuDNN 9.x 版本。安装完成后,重启计算机。重新运行 pyVideoTrans,确保 CUDA加速 已勾选,再次尝试语音识别。如果暂时不想降级 CUDA,可以取消勾选 CUDA加速,使用 CPU 模式识别(需耐心等待)。请查阅相关文档:windows上安装CUDA12.8和cuDNN9.11总是提示显存不足

请注意,使用 large-v3 模型在 CPU 上运行会非常缓慢,且需要大量内存(建议 16GB 以上),这个咋弄嘞,如何看,还要12.8这个咋个搞,咋个卸载,咋个弄

要解决您的问题,需要完成两件事:1. 查看当前电脑内存;2. 将CUDA从13.0降级到12.8。

1. 如何查看电脑内存(RAM)

  • 方法一(推荐)

    1. 同时按下键盘上的 Ctrl + Shift + Esc 键,打开“任务管理器”。
    2. 点击顶部的“性能”选项卡。
    3. 在左侧选择“内存”。
    4. 在右侧可以看到“已使用”和“可用”内存,以及右上角的总内存大小(例如 16.0 GB)。
  • 方法二

    1. 右键点击桌面上的“此电脑”或“我的电脑”图标。
    2. 选择“属性”。
    3. 在“设备规格”部分,可以看到“已安装的内存(RAM)”。

如果您的内存小于16GB,使用CPU运行large-v3模型很可能因内存不足而失败或极慢。

2. 如何卸载CUDA 13.0并安装CUDA 12.8

重要提示:操作前请关闭所有程序。

步骤一:卸载现有CUDA

  1. 打开Windows的“控制面板”。
  2. 进入“程序和功能”。
  3. 在程序列表中找到所有名称以“NVIDIA”开头,且包含“CUDA”字样的项目(例如 “NVIDIA CUDA 13.0.xx Toolkit”)。
  4. 右键点击它们,选择“卸载”,并按照提示完成卸载。
  5. 重启计算机

步骤二:下载CUDA 12.8安装包

  1. 访问NVIDIA CUDA Toolkit存档页面:https://developer.nvidia.com/cuda-toolkit-archive
  2. 在列表中找到 CUDA Toolkit 12.8.0 并点击进入。
  3. 根据您的操作系统(Windows)选择相应的安装程序。通常选择:

    • 操作系统:Windows
    • 架构:x86_64
    • 版本:Windows 10 或 Windows 11
    • 安装程序类型:选择 exe (local) 进行本地下载。
  4. 下载完成后,您会得到一个类似 cuda_12.8.0_xxx_windows.exe 的文件。

步骤三:安装CUDA 12.8

  1. 双击运行下载的 cuda_12.8.0_xxx_windows.exe 安装程序。
  2. 安装类型选择“自定义(高级)”。
  3. 在组件选择页面,务必取消勾选“Visual Studio Integration”(除非您需要开发),其他组件保持默认即可。
  4. 点击“下一步”并完成安装。
  5. 安装完成后,再次重启计算机

步骤四:验证安装

  1. 重新打开命令提示符(CMD)。
  2. 输入 nvcc -V 并回车。
  3. 如果显示版本为 release 12.8,则说明CUDA 12.8安装成功。
  4. 再次输入 nvidia-smi,顶部显示的“CUDA Version”应该更新为 12.8

完成以上步骤后,重新运行pyVideoTrans,勾选“CUDA加速”,再次尝试语音识别。

请查阅相关文档:

NVIDIA CUDA Toolkit12.8 在控制面版我是这个啊,还要我CPU是16G的

从您的信息来看,您已经安装了 CUDA Toolkit 12.8,并且内存是 16GB。问题可能出在软件未能正确调用您安装的 CUDA 12.8 环境。核心原因:系统环境变量可能未正确指向 CUDA 12.8,或者软件在启动时检测到了其他版本的 CUDA 运行时。解决方案:验证 CUDA 环境变量:右键点击“此电脑” -> “属性” -> “高级系统设置” -> “环境变量”。在“系统变量”中,检查 Path 变量。确保其中包含 CUDA 12.8 的安装路径,通常类似:C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.8\binC:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.8\libnvvp同时检查是否有其他版本的 CUDA 路径(如 v13.0)也存在于 Path 中。如果有,请将 v12.8 的路径调整到 v13.0 路径的前面,或者暂时删除 v13.0 的路径。修改后,点击“确定”保存所有设置,并重启计算机。在软件中强制指定 CUDA 路径(如果环境变量无效):在 pyVideoTrans 软件根目录下,找到并打开 config.ini 文件(如果存在)。或者,在软件启动后,进入 菜单 -> 工具 -> 高级选项,检查是否有关于 CUDA 路径的配置项。如果找不到,此步骤可跳过。使用 CPU 模式进行测试(确认问题是否在 GPU 调用):在 pyVideoTrans 主界面,取消勾选右上角的 CUDA加速 复选框。这将强制软件使用 CPU 进行语音识别。使用 large-v3 模型在 16GB 内存上运行是可行的,但速度会非常慢(可能需要数十分钟甚至更久,取决于视频长度)。请耐心等待,观察识别过程是否能正常开始并完成。如果 CPU 模式可以成功识别,则问题确认为 GPU 调用失败。如果 CPU 模式也失败,则问题可能出在视频文件、模型文件或其他设置上。检查模型文件:确认 faster-whisper 的 large-v3 模型已完整下载。模型应位于软件根目录下的 models/models--Systran--faster-whisper-large-v3 文件夹中。如果模型不完整或损坏,可能导致识别进程崩溃。您可以尝试手动下载模型文件(参考知识库“手动下载适用于 faster-whisper(本地) 语音识别渠道的模型”部分)。操作步骤总结:检查并调整系统环境变量 Path,确保 CUDA v12.8 的路径优先。重启电脑。重新运行 pyVideoTrans,勾选 CUDA加速,再次尝试。如果失败,取消勾选 CUDA加速,使用 CPU 模式测试识别是否能进行。如果 CPU 模式成功,则问题在于 GPU 环境配置;如果 CPU 模式也失败,则检查模型文件或尝试其他识别渠道(如 openai-whisper)。请查阅相关文档:windows上安装CUDA12.8和cuDNN9.11总是提示显存不足在线下载AI模型失败的解决办法

我的就是没有13.0这些啊,就是12.8环境变量也是12.8的

既然您的环境只有 CUDA 12.8,且环境变量正确,但语音识别进程仍被终止,问题可能出在模型文件不完整或软件内部调用 GPU 时遇到兼容性问题。核心原因:faster-whisper 的 large-v3 模型文件可能下载不完整或损坏,导致加载失败。或者,软件与当前显卡驱动/CUDA 组合存在特定兼容性问题。解决方案:验证并重新下载模型文件:关闭 pyVideoTrans 软件。进入软件安装目录下的 models 文件夹(例如 G:\VideoTrans\Trans\win-pyvideotrans-v3.98-327\models)。检查是否存在文件夹 models--Systran--faster-whisper-large-v3。如果存在,请将其重命名为 models--Systran--faster-whisper-large-v3_backup 作为备份。重新启动 pyVideoTrans 软件。在主界面选择 faster-whisper(本地) 和 large-v3 模型,开始翻译。软件会尝试重新下载模型。请确保网络通畅(可能需要代理)。如果自动下载失败,请手动下载模型文件。具体方法:参考知识库“手动下载适用于 faster-whisper(本地) 语音识别渠道的模型”部分。您需要从 HuggingFace 或镜像站下载所有 .json/.bin/.txt 文件,并放入新建的 models--Systran--faster-whisper-large-v3 文件夹中。调整高级设置以降低 GPU 负载:进入 菜单 -> 工具 -> 高级选项 -> 语音识别参数。进行如下调整,以减少显存占用并提高兼容性:CUDA数据类型:从 default 改为 float16 或 int8。识别准确度 beam_size:从 5 改为 1。识别准确度 best_of:从 5 改为 1。启用上下文感知:确保未勾选。尝试其他语音识别渠道(绕过当前问题):在“语音识别”下拉菜单中,切换到 openai-whisper(本地) 渠道,同样选择 large-v3 模型。该渠道使用不同的后端,可能对您的环境兼容性更好。或者,针对泰语,最佳选择是切换到在线AI识别渠道,如 Gemini大模型识别(需配置API Key和网络代理)。使用 CPU 模式进行最终测试:在主界面取消勾选 CUDA加速。这将使用 CPU 进行识别。虽然速度极慢(16GB内存运行 large-v3 模型会很吃力),但可以验证是否是纯粹的GPU调用问题。如果 CPU 模式可以开始识别(即使很慢),则问题在于GPU环境或模型加载。如果 CPU 模式也立即失败,则问题很可能出在模型文件或视频文件本身。操作步骤总结:备份并删除旧的 large-v3 模型文件夹,让软件重新下载,或手动下载完整模型。调整高级语音识别参数,降低GPU负载。尝试切换语音识别渠道到 openai-whisper(本地)。作为最后的手段,取消 CUDA加速 用CPU测试。请查阅相关文档:在线下载AI模型失败的解决办法总是提示显存不足语音识别模型分类与说明

| NVIDIA-SMI 581.80 Driver Version: 581.80 CUDA Version: 13.0 为啥我明明是12.8,但是cmd查出来是13.0啊。如何弄

这是因为您的 NVIDIA 显卡驱动版本(581.80)内嵌支持的最高 CUDA 版本是 13.0。nvidia-smi 显示的是驱动程序支持的最高 CUDA 版本,而不是您实际安装的 CUDA 工具包版本。您实际安装的 CUDA 12.8 工具包是没问题的。核心原因:nvidia-smi 显示的“CUDA Version”是驱动兼容性,不代表已安装的工具包版本。您的系统同时存在 CUDA 12.8 工具包和 CUDA 13.0 驱动兼容层,这可能导致软件在检测时产生混淆或调用错误。解决方案:验证实际安装的 CUDA 工具包版本:打开命令提示符(CMD),输入 nvcc -V 并回车。这个命令显示的是您实际安装的 CUDA 编译工具版本。如果显示为 release 12.8,则证明 CUDA 12.8 工具包已正确安装。确保环境变量指向 CUDA 12.8:右键点击“此电脑” -> “属性” -> “高级系统设置” -> “环境变量”。在“系统变量”中,检查 Path 变量。确保其中包含 CUDA 12.8 的安装路径,例如:C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.8\bin。同时,检查是否有其他版本的 CUDA 路径(例如 v13.0 或旧的 v11.x)也存在于 Path 中。如果有,请将 v12.8 的路径调整到最前面,或者删除其他版本的路径。在“系统变量”中,检查是否有名为 CUDA_PATH 的变量。如果存在,确保其值为 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.8。如果不存在,可以新建一个。修改后,点击“确定”保存,并重启计算机。在软件中尝试切换 CUDA 数据类型:在 pyVideoTrans 中,进入 菜单 -> 工具 -> 高级选项 -> 语音识别参数。将 CUDA数据类型default 改为 float16。这有时能解决因驱动兼容性导致的问题。如果问题依旧,考虑降级显卡驱动:由于驱动 581.80 内嵌支持 CUDA 13.0,可能与 CUDA 12.8 工具包存在细微不兼容。您可以尝试将显卡驱动降级到一个明确支持 CUDA 12.8 的版本。访问 NVIDIA 官网驱动程序下载页面。选择您的显卡型号(GeForce RTX 3060),操作系统等。在“类型”中选择 Studio 驱动程序Game Ready 驱动程序,并选择一个稍旧的版本(例如 5xx.xx 系列中较早的版本)进行安装。安装前,建议使用 DDU 工具在安全模式下彻底卸载现有驱动,再安装旧版驱动。操作步骤总结:在 CMD 中用 nvcc -V 确认 CUDA 12.8 工具包已安装。检查并调整系统环境变量 PathCUDA_PATH,确保指向 v12.8。重启电脑。在软件高级选项中,将 CUDA数据类型 改为 float16。重新运行 pyVideoTrans,勾选 CUDA加速 进行测试。如果仍失败,考虑降级显卡驱动至一个与 CUDA 12.8 兼容性更好的版本。请查阅相关文档:windows上安装CUDA12.8和cuDNN9.11

C:\Users\lsl>nvcc -V
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2025 NVIDIA Corporation
Built on Fri_Feb_21_20:42:46_Pacific_Standard_Time_2025
Cuda compilation tools, release 12.8, V12.8.93
Build cuda_12.8.r12.8/compiler.35583870_0

C:\Users\lsl>

很好,nvcc -V 确认您已正确安装 CUDA 12.8 工具包。现在问题在于软件运行时可能未正确调用此环境。核心原因:软件在启动时可能检测到了其他 CUDA 相关的环境或库,或者模型文件有问题,导致 GPU 进程初始化失败。解决方案:在软件中强制使用 CPU 模式进行测试(关键诊断步骤):在 pyVideoTrans 主界面,取消勾选右上角的 CUDA加速 复选框。这将强制软件使用 CPU 进行语音识别。选择 faster-whisper(本地) 和 large-v3 模型,再次尝试翻译。目的:如果 CPU 模式可以正常开始识别(即使速度极慢),则证明问题出在 GPU 调用环节。如果 CPU 模式也立即失败或进程被终止,则问题很可能出在模型文件或视频文件本身。检查并清理模型文件(如果 CPU 模式也失败):关闭软件。进入软件安装目录下的 models 文件夹。将 models--Systran--faster-whisper-large-v3 文件夹重命名(如改为 large-v3_backup)。重新启动软件,让它重新下载模型。或者,按照知识库指南手动下载完整的模型文件。调整软件高级设置以优化 GPU 调用:进入 菜单 -> 工具 -> 高级选项 -> 语音识别参数。进行如下调整:CUDA数据类型:从 default 改为 float16。识别准确度 beam_size:从 5 改为 1。识别准确度 best_of:从 5 改为 1。启用上下文感知:确保未勾选。保存设置,重启软件,勾选 CUDA加速 再试。检查软件安装路径权限:您的软件安装在 G:\VideoTrans\Trans\win-pyvideotrans-v3.98-327\。请确保您对该文件夹拥有完全的读写权限(右键文件夹 -> 属性 -> 安全 -> 检查您的用户权限)。尝试使用 openai-whisper 渠道:在“语音识别”下拉菜单中,切换到 openai-whisper(本地) 渠道,同样选择 large-v3 模型。该渠道使用不同的库(PyTorch),可能对您的 CUDA 环境兼容性更好。操作步骤总结:首先,取消勾选 CUDA加速,用 CPU 模式测试。如果 CPU 模式能运行,则问题在 GPU 调用。请清理模型文件并调整高级参数(float16, beam_size=1)后,再启用 CUDA加速 测试。如果 CPU 模式也失败,则问题在模型或视频。请清理并重新下载模型文件。如果上述步骤均无效,尝试切换语音识别渠道到 openai-whisper(本地)。请查阅相关文档:总是提示显存不足在线下载AI模型失败的解决办法语音识别模型分类与说明


Application started at 2026-03-28 03:59:57

PIL\Image.py:116: RuntimeWarning: The _imaging extension was built for another version of Pillow or PIL:
Core version: 12.1.0
Pillow version: 12.1.1
if version != getattr(core, "PILLOW_VERSION", None):
First searching GPU...
[DEBUG] 返回缓存的编解码器 Windows-264: h264_nvenc
[DEBUG] 返回缓存的编解码器 Windows-265: hevc_nvenc
NVIDIA_GPU_NUMS=1
Found 1 GPUs, cost=4s
start workers...
process_max_gpu=1
multi_gpus=False
Concurrent task_nums=1
process_max=1
start 9 jobs
ended workers
[DEBUG] 最终配置信息:self.cfg=TaskCfgVTT(is_cuda=True, uuid='4be8c64bce', cache_folder='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/32092/4be8c64bce', target_dir='C:/Users/lsl/Downloads/_video_out/ลีน่าช็อกเจอ ปลาขอทานใต้แท้ หรอยแรงสะเทือนครัว The Big Kitchen EP.384_1080p-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/ลีน่าช็อกเจอ ปลาขอทานใต้แท้ หรอยแรงสะเทือนครัว The Big Kitchen EP.384_1080p-mp4
......
alse, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)
[DEBUG] [job] 进入执行语音识别阶段 trk.cfg=TaskCfgVTT(is_cuda=True, uuid='4be8c64bce', cache_folder='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/32092/4be8c64bce', target_dir='C:/Users/lsl/Downloads/_video_out/ลีน่าช็อกเจอ ปลาขอทานใต้แท้ หรอยแรงสะเทือนครัว The Big Kitchen EP.384_1080p-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/ลีน่าช็อกเจอ ปลาขอทานใต้แท้ หรอยแรงสะเทือนครัว The Big Kitchen EP.384_1080p-mp4/th.srt', source_wav='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/32092/4be8c64bce/th.wav', source_wav_output='C:/Users/lsl/Downloads/_video_out/ลีน่าช็อกเจอ ปลาขอทานใต้แท้ หรอยแรงสะเทือนครัว The Big Kitchen EP.384_1080p-mp4/th.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='C:/Users/lsl/Downloads/_video_out/ลีน่าช็อกเจอ ปลาขอทานใต้แท้ หรอยแรงสะเทือนครัว The Big Kitchen EP.384_1080p-mp4/zh-cn.srt', target_wav='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/32092/4be8c64bce/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/ลีน่าช็อกเจอ ปลาขอทานใต้แท้ หรอยแรงสะเทือนครัว The Big Kitchen EP.384_1080p-mp4/zh-cn.m4a', name='C:/Users/lsl/Downloads/ลีน่าช็อกเจอ ปลาขอทานใต้แท้ หรอยแรงสะเทือนครัว The Big Kitchen EP.384_1080p.mp4', noextname='ลีน่าช็อกเจอ ปลาขอทานใต้แท้ หรอยแรงสะเทือนครัว The Big Kitchen EP.384_1080p', basename='ลีน่าช็อกเจอ ปลาขอทานใต้แท้ หรอยแรงสะเทือนครัว The Big Kitchen EP.384_1080p.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='th', recogn_type=0, model_name='large-v3', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/ลีน่าช็อกเจอ ปลาขอทานใต้แท้ หรอยแรงสะเทือนครัว The Big Kitchen EP.384_1080p-mp4/ลีน่าช็อกเจอ ปลาขอทานใต้แท้ หรอยแรงสะเทือนครัว The Big Kitchen EP.384_1080p.mp4', novoice_mp4='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/32092/4be8c64bce/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)

[DEBUG] [recognition]__init__:kwargs={'detect_language': 'th', 'audio_file': 'G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/32092/4be8c64bce/th.wav', 'cache_folder': 'G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/32092/4be8c64bce', 'model_name': 'large-v3', 'uuid': '4be8c64bce', 'is_cuda': True, 'subtitle_type': 0, 'recogn_type': 0, 'max_speakers': -1, 'llm_post': False, 'recogn2pass': False}
[DEBUG] BaseRecogn 初始化
为什么还是没有啊,特别慢就算了,语音识别就是没有

从日志看,软件已进入语音识别阶段并初始化成功,但您感觉“特别慢”且“没有”结果。这通常是由于 faster-whisper 的 large-v3 模型对泰语(小语种)识别效果不佳,导致识别过程缓慢且可能输出空结果或乱码。核心原因:模型与语言不匹配。faster-whisper 的 large-v3 模型虽然支持多语言,但对泰语等小语种的识别准确率和速度都较差。解决方案:切换语音识别渠道(针对泰语的最佳方案):在“语音识别”下拉菜单中,选择 Gemini大模型识别 或 OpenAI语音识别API。这些在线AI大模型对小语种识别效果更好、速度更快。但需要您自行配置API Key和网络代理。如果无法使用在线渠道,尝试本地替代方案:在“语音识别”下拉菜单中,切换到 openai-whisper(本地) 渠道,同样选择 large-v3 模型。该渠道的后端不同,可能对泰语有略微更好的支持。调整高级参数以优化识别(如果坚持使用 faster-whisper):进入 菜单 -> 工具 -> 高级选项 -> 语音识别参数。进行如下调整:语音阈值:降低到 0.3,提高对微弱语音的灵敏度。最长语音持续秒数:设为 6。静音分割持续毫秒:设为 500。在主界面,勾选 降噪 选项。验证视频内容:确保视频中的人物确实在说泰语,且语音清晰。背景音乐或噪音过大会严重影响识别。使用播放器打开视频,仔细聆听确认。操作步骤总结(按推荐顺序):首选:切换到 Gemini大模型识别 或 OpenAI语音识别API 等在线AI渠道(需配置API和代理)。次选:切换到 openai-whisper(本地) 渠道,使用 large-v3 模型。最后:如果必须使用 faster-whisper,请按上述第2点调整高级参数并开启降噪,然后耐心等待(识别泰语会非常慢)。请查阅相关文档:语音识别模型分类与说明Gemini AI 进行语音识别OpenAI语音识别API接口进行识别

泰语识别很慢,为啥我用3.75的泰语识别就是很快,30分钟的

这是因为 v3.75 版本可能使用了不同的语音识别模型或配置,而 v3.98 默认的 faster-whisper large-v3 模型对泰语等小语种的优化不足,导致识别速度极慢。核心原因:模型差异。不同版本的 pyVideoTrans 可能内置了不同的默认语音识别模型或参数。v3.75 可能使用了更小、更快的模型,或者针对泰语有更好的默认配置。解决方案:在 v3.98 中复现 v3.75 的快速识别效果:尝试使用更小的模型:在“语音识别”下拉菜单中,选择 faster-whisper(本地),然后在右侧模型选择中,尝试使用比 large-v3 更小的模型,例如 medium、small 或 base。模型越小,识别速度越快,但对泰语的准确率会降低。调整高级参数以加速:进入 菜单 -> 工具 -> 高级选项 -> 语音识别参数。进行如下调整以大幅提升速度(以牺牲一定准确率为代价):CUDA数据类型:改为 int8(速度最快,资源消耗最低)。识别准确度 beam_size:改为 1。识别准确度 best_of:改为 1。启用上下文感知:确保未勾选。语音阈值:可以尝试提高到 0.6,减少对可能噪音的处理。检查 v3.75 的具体配置(如果您仍保留旧版):打开 v3.75 版本软件,查看其“语音识别”渠道和模型选择,以及“高级选项”中的参数设置。在 v3.98 中手动设置成相同的配置。使用针对泰语优化的识别渠道:知识库指出,对于小语种,最佳配置是使用在线AI大模型识别。请切换到 Gemini大模型识别 或 OpenAI语音识别API,这通常能获得又快又好的效果(需配置API Key和代理)。操作步骤总结:在 v3.98 中,将语音识别模型从 large-v3 换为 medium 或 small。进入高级选项,将 CUDA数据类型 改为 int8,beam_size 和 best_of 都改为 1。保存设置并重新尝试识别。如果速度仍不理想,请考虑切换到 Gemini大模型识别 等在线渠道。请查阅相关文档:语音识别模型分类与说明总是提示显存不足Gemini AI 进行语音识别

我就是想要更加准确的泰语识别,faster模型的

要获得更准确的泰语识别,同时使用 faster-whisper 模型,需要针对泰语优化配置,而不是单纯使用最大的模型。核心原因:faster-whisper 的 large-v3 模型虽然大,但对泰语等小语种并非最优,且默认参数可能不适合泰语语音特点。解决方案:优化高级参数配置(关键步骤):进入 菜单 -> 工具 -> 高级选项 -> 语音识别参数。进行如下针对性调整:语音阈值:降低到 0.3 或 0.2。泰语语音可能音调较高或音量较小,降低阈值可以提高灵敏度。最长语音持续秒数:设为 8 或 10。泰语句子可能较长,避免过早切割。静音分割持续毫秒:设为 800 或 1000。泰语语速可能较快,适当增加静音分割时长有助于正确断句。启用上下文感知:勾选此项。这有助于模型利用上下文信息提高泰语识别准确率,但会稍微增加显存占用。CUDA数据类型:保持为 float16(平衡速度和精度)。如果显存充足(您的RTX 3060 6GB可能紧张),可尝试 float32 以获得最高精度。在主界面,务必勾选 降噪 选项,以减少背景噪音干扰。尝试不同的 VAD 模型:在“选择VAD”下拉菜单中,尝试切换为 ten-vad 或 silero,看哪个对泰语语音活动检测更准确。使用“预分割音频”模式:在高级选项中,勾选 Whisper预分割音频?。这会将音频预先切割成句子片段再识别,可能对泰语长句识别更友好。同时,将 最短语音持续毫秒 设为 3000,并勾选 合并过短字幕到邻近。验证模型完整性:确保 models/models--Systran--faster-whisper-large-v3 文件夹内的模型文件完整。如有疑问,删除该文件夹,让软件重新下载。操作步骤总结:进入高级选项,按上述第1点精确调整参数(重点是降低语音阈值、增加最长语音时长和静音分割时长、启用上下文感知)。在主界面勾选“降噪”。尝试切换 VAD 模型。勾选“Whisper预分割音频”。保存设置,重启软件,再次尝试识别。如果识别速度过慢但准确率提升,可考虑将 CUDA数据类型 改为 int8 加速,但会损失一些精度。请查阅相关文档:语音识别模型分类与说明语音识别中的VAD参数调整优化断句效果,调整语音识别时的字幕时长

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource