#3828 Application started at 2026-03-28 03:10:11 PIL\Image.py:116: RuntimeWarning: The _imaging extension was built for anothe

154.64* Posted at: 2 months ago

Application started at 2026-03-28 03:10:11

PIL\Image.py:116: RuntimeWarning: The _imaging extension was built for another version of Pillow or PIL:
Core version: 12.1.0
Pillow version: 12.1.1
if version != getattr(core, "PILLOW_VERSION", None):
First searching GPU...
[DEBUG] 返回缓存的编解码器 Windows-264: h264_nvenc
[DEBUG] 返回缓存的编解码器 Windows-265: hevc_nvenc
NVIDIA_GPU_NUMS=1
Found 1 GPUs, cost=4s
start workers...
process_max_gpu=1
multi_gpus=False
Concurrent task_nums=1
process_max=1
start 9 jobs
ended workers
[DEBUG] 最终配置信息：self.cfg=TaskCfgVTT(is_cuda=True, uuid='4fbcee1351', cache_folder='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/6852/4fbcee1351', target_dir='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4/th.srt', source_wav='G:/VideoTrans/Trans/win-pyvideotrans-v3.9
......
cee1351/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4/zh-cn.m4a', name='C:/Users/lsl/Downloads/Namnung and Sunny tiktok live #namnung #sunny.mp4', noextname='Namnung and Sunny tiktok live #namnung #sunny', basename='Namnung and Sunny tiktok live #namnung #sunny.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='th', recogn_type=0, model_name='large-v3', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4/Namnung and Sunny tiktok live #namnung #sunny.mp4', novoice_mp4='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/6852/4fbcee1351/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)

[DEBUG] [recognition]__init__:kwargs={'detect_language': 'th', 'audio_file': 'G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/6852/4fbcee1351/th.wav', 'cache_folder': 'G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/6852/4fbcee1351', 'model_name': 'large-v3', 'uuid': '4fbcee1351', 'is_cuda': True, 'subtitle_type': 0, 'recogn_type': 0, 'max_speakers': -1, 'llm_post': False, 'recogn2pass': False}
[DEBUG] BaseRecogn 初始化

[DEBUG] GPU进程池:max_workers=1
[DEBUG] faster-whisper模式下，对large-v3模型返回的断句结果重新修正
[DEBUG] 最终配置信息：self.cfg=TaskCfgVTT(is_cuda=True, uuid='cac82f0290', cache_folder='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/6852/cac82f0290', target_dir='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4/th.srt', source_wav='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/6852/cac82f0290/th.wav', source_wav_output='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4/th.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4/zh-cn.srt', target_wav='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/6852/cac82f0290/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4/zh-cn.m4a', name='C:/Users/lsl/Downloads/Namnung and Sunny tiktok live #namnung #sunny.mp4', noextname='Namnung and Sunny tiktok live #namnung #sunny', basename='Namnung and Sunny tiktok live #namnung #sunny.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='th', recogn_type=0, model_name='medium.en', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4/Namnung and Sunny tiktok live #namnung #sunny.mp4', novoice_mp4='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/6852/cac82f0290/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)
为什么我的语音识别就是识别出出来，用largev3,mediue,这些都不行，点了cuda加速

Floor #1 DeepSeek reply at 2 months ago

这是由于使用了仅支持英语的语音识别模型来处理泰语视频导致的。

从日志中可以看到，您选择了 faster-whisper(本地) 渠道，并尝试了 large-v3 和 medium.en 模型。问题在于：

large-v3 模型：虽然是多语言模型，但对泰语等小语种的支持效果可能不佳。
medium.en 模型：以 .en 结尾的模型是英语专用模型，仅能识别英语发音的视频，完全无法处理泰语。

解决方案：

更换语音识别渠道和模型：
- 首选（免费）：在“语音识别”下拉菜单中，选择 faster-whisper(本地)，并在右侧模型选择中，确保使用不带 .en 后缀的模型，例如 large-v3。虽然对泰语支持有限，但这是免费本地模型中最好的选择。
- 最佳（收费）：对于泰语等小语种，知识库推荐使用在线AI大模型识别，效果更好。您可以尝试：
  - Gemini大模型识别：需要配置API Key和网络代理。
  - OpenAI语音识别API：需要配置API Key和网络代理。
确认原始语言设置：
在“发音语言”下拉列表中，必须明确选择 泰国语（或 th），不能选择 auto（自动检测）。在视频翻译功能中，明确指定原始语言是必需的。
优化识别参数（如果继续使用本地模型）：
进入 菜单 -> 工具 -> 高级选项 -> 语音识别参数，进行如下调整以提高泰语识别率：
- 语音阈值：设为 0.5。
- 最长语音持续秒数：设为 6。
- 静音分割持续毫秒：设为 500。
- 如果视频背景嘈杂，可以勾选主界面的 降噪 选项。

操作步骤总结：

在主界面“语音识别”处，选择 faster-whisper(本地)，并确保模型为 large-v3（非 .en 版本）。
在“发音语言”处，明确选择 泰国语。
如果识别效果仍不理想，考虑切换到 Gemini大模型识别 或 OpenAI语音识别API 等收费渠道。
如需调整参数，按上述第3点进入高级选项进行设置。

请查阅相关文档：

Floor #2 154.64* reply at 2 months ago

large-v3用这个，也是识别不出来啊，什么原因啊，这个3.98的

Floor #3 DeepSeek reply at 2 months ago

这是由于视频文件路径过长且包含特殊字符（#号）导致处理失败。

从日志中可以看到，您的视频文件路径为：
C:/Users/lsl/Downloads/Namnung and Sunny tiktok live #namnung #sunny.mp4

问题核心原因：

路径过长：从盘符到文件名总字符数过多，接近或超过Windows命令行限制（约260字符）。
特殊字符：文件名中包含 # 符号，这在命令行处理中可能导致解析错误。
缓存清理：您已勾选“清理已生成”，但路径问题导致软件无法正常读取或处理源文件。

解决方案：

重命名并移动文件：
- 将视频文件从 C:/Users/lsl/Downloads/ 移动到一个更浅的目录，例如 D:\ 或 D:\videos。
- 将视频文件名重命名为一个简短的、仅包含英文或数字的名称，例如 test.mp4。必须删除所有特殊符号（如 #）和空格。
使用软件处理：
- 使用重命名后的新文件路径（如 D:\test.mp4）在软件中重新选择视频进行处理。
检查CUDA加速：
- 确保主界面右上角的 CUDA加速 复选框已勾选。
- 在CMD中输入 nvidia-smi 确认显卡驱动正常，并确认已安装CUDA 12.8。

操作步骤总结：

将视频文件 Namnung and Sunny tiktok live #namnung #sunny.mp4 复制到 D:\ 根目录。
将其重命名为 test.mp4（或类似的短名）。
在pyVideoTrans中，点击“选择音频或视频”，选择 D:\test.mp4。
确保“发音语言”选择“泰国语”，“语音识别”选择 faster-whisper(本地) 和 large-v3 模型，并勾选“CUDA加速”。
点击“开始翻译”。

请查阅相关文档：

Floor #4 2409:896a* reply at 2 months ago

已经弄成这样，

Application started at 2026-03-28 03:10:11

PIL\Image.py:116: RuntimeWarning: The _imaging extension was built for another version of Pillow or PIL:
Core version: 12.1.0
Pillow version: 12.1.1
if version != getattr(core, "PILLOW_VERSION", None):
First searching GPU...
[DEBUG] 返回缓存的编解码器 Windows-264: h264_nvenc
[DEBUG] 返回缓存的编解码器 Windows-265: hevc_nvenc
NVIDIA_GPU_NUMS=1
Found 1 GPUs, cost=4s
start workers...
process_max_gpu=1
multi_gpus=False
Concurrent task_nums=1
process_max=1
start 9 jobs
ended workers
[DEBUG] 最终配置信息：self.cfg=TaskCfgVTT(is_cuda=True, uuid='4fbcee1351', cache_folder='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/6852/4fbcee1351', target_dir='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/Namnung and Sunny tiktok live #namnung #sunny-mp4/th.srt', source_wav='G:/VideoTrans/Trans/win-pyvideotra
......
o=True, detect_language='th', recogn_type=0, model_name='large-v3', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/nasu-mp4/nasu.mp4', novoice_mp4='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/22436/c796163f27/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)
[DEBUG] [job] 进入执行语音识别阶段 trk.cfg=TaskCfgVTT(is_cuda=True, uuid='c796163f27', cache_folder='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/22436/c796163f27', target_dir='C:/Users/lsl/Downloads/_video_out/nasu-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.srt', source_wav='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/22436/c796163f27/th.wav', source_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/th.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.srt', target_wav='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/22436/c796163f27/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/nasu-mp4/zh-cn.m4a', name='C:/Users/lsl/Downloads/nasu.mp4', noextname='nasu', basename='nasu.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='th', recogn_type=0, model_name='large-v3', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/nasu-mp4/nasu.mp4', novoice_mp4='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/22436/c796163f27/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)

[DEBUG] [recognition]__init__:kwargs={'detect_language': 'th', 'audio_file': 'G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/22436/c796163f27/th.wav', 'cache_folder': 'G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/22436/c796163f27', 'model_name': 'large-v3', 'uuid': 'c796163f27', 'is_cuda': True, 'subtitle_type': 0, 'recogn_type': 0, 'max_speakers': -1, 'llm_post': False, 'recogn2pass': False}
[DEBUG] BaseRecogn 初始化

[DEBUG] GPU进程池:max_workers=1
[DEBUG] faster-whisper模式下，对large-v3模型返回的断句结果重新修正
正在等待线程 SpeechToText 结束...
Successfully killed ffmpeg processes ，using taskkill
语音视频没有那个特殊符号的，但是还是语音识别不了

Floor #5 DeepSeek reply at 2 months ago

从日志看，软件已进入语音识别阶段并开始处理，但最终进程被终止（Successfully killed ffmpeg processes），导致识别失败。这通常是由于视频本身不含有效音轨或音频格式问题。

核心原因： 视频文件可能不含有效音轨，或音轨格式异常，导致语音识别模块无法提取音频进行处理。

解决方案：

验证视频音轨：
- 使用其他播放器（如 VLC、PotPlayer）打开 C:/Users/lsl/Downloads/nasu.mp4，确认视频有声音且播放正常。
- 如果视频本身是无声的（例如从某些平台下载的视频可能音画分离），则软件会因“不含音轨”而失败。
检查音频提取：
- 软件在识别前会调用 ffmpeg 从视频中提取音频（th.wav）。日志显示进程被终止，可能是 ffmpeg 提取音频失败。
- 临时解决方案：您可以尝试手动将视频转换为标准音频格式（如 WAV 或 MP3），然后使用软件的“批量语音转字幕”功能单独处理音频文件。
  - 使用格式工厂等工具，将 nasu.mp4 转换为 nasu.wav（采样率 16kHz，单声道为佳）。
  - 在 pyVideoTrans 左侧功能面板选择“批量语音转字幕”。
  - 选择转换后的 nasu.wav 文件，设置“原始语言”为“泰国语”，选择识别模型，进行识别。
调整高级参数（如果音轨存在但识别失败）：
- 进入 菜单 -> 工具 -> 高级选项 -> 语音识别参数。
- 尝试调整以下参数，以应对可能存在的低音量或背景噪音：
  - 语音阈值：从 0.5 降低到 0.3 或 0.2，提高对微弱语音的灵敏度。
  - 最长语音持续秒数：确保不是过小的值（如1秒），可设为 6。
  - 静音分割持续毫秒：设为 500。
- 在主界面，勾选降噪选项。
尝试其他语音识别渠道（针对泰语）：
- faster-whisper 的 large-v3 模型对泰语等小语种支持有限。如果上述步骤无效，建议切换渠道。
- 最佳选择（收费）：在“语音识别”下拉菜单中，选择 Gemini大模型识别 或 OpenAI语音识别API。这些在线大模型对小语种识别效果更好，但需要配置API Key和网络代理。

操作步骤总结：

先用播放器确认 nasu.mp4 视频文件本身有声音。
如果有声音但软件识别失败，尝试手动转换视频为 WAV 音频，并用“批量语音转字幕”功能处理。
或调整高级识别参数（降低语音阈值、开启降噪）。
若仍无效，考虑换用 Gemini大模型识别 等在线AI识别渠道。

请查阅相关文档：

Floor #6 154.64* reply at 2 months ago

有声音的啊MP4

Floor #7 DeepSeek reply at 2 months ago

既然视频有声音，但语音识别进程被终止，这通常是由于音频格式不标准或软件内部处理音频时出错导致的。

核心原因：ffmpeg 在提取或处理视频中的音频流时遇到问题，导致进程被强制终止。

解决方案：

使用软件内置工具重新提取音频：
- 在软件左侧功能面板，选择 批量从视频中分离出音频。
- 选择您的 nasu.mp4 文件，将其转换为标准的 WAV 或 M4A 格式。
- 转换完成后，使用左侧的 批量语音转字幕 功能，选择刚生成的音频文件，设置“原始语言”为“泰国语”，再次尝试识别。这可以绕过视频直接处理音频，验证是否是音频提取环节的问题。
检查并调整高级语音识别参数：
- 进入 菜单 -> 工具 -> 高级选项 -> 语音识别参数。
- 进行如下调整，以适应可能的音频特性：
  - 语音阈值：从默认的 0.5 降低到 0.3。
  - 最长语音持续秒数：设为 6。
  - 静音分割持续毫秒：设为 500。
- 在主界面，勾选 降噪 选项。
验证 CUDA 环境和模型：
- 确认主界面右上角的 CUDA加速 复选框已勾选。
- 在 CMD 中输入 nvidia-smi，确认显卡驱动正常且显存充足。
- faster-whisper 的 large-v3 模型对泰语支持有限。如果识别结果依然为空，可以尝试：
  - 在“语音识别”下拉菜单中，切换到 openai-whisper(本地) 渠道，同样选择 large-v3 模型再试一次。
  - 或者，这是针对小语种的最佳方案：切换到 Gemini大模型识别 或 OpenAI语音识别API 等在线AI渠道（需配置API Key和网络代理）。
检查软件安装路径：
- 您的软件安装在 G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/。请确保该路径没有中文或特殊符号，且您拥有该目录的完全读写权限。

操作步骤总结：

先用“批量从视频中分离出音频”功能，将视频转为音频文件。
用“批量语音转字幕”功能处理生成的音频文件。
如果失败，调整高级语音识别参数并开启降噪。
如果仍失败，尝试切换语音识别渠道（openai-whisper 或在线AI渠道）。

请查阅相关文档：

Floor #8 154.64* reply at 2 months ago

C:\Users\lsl>nvidia-smi
Sat Mar 28 03:42:17 2026
+

-+
| NVIDIA-SMI 581.80 Driver Version: 581.80 CUDA Version: 13.0 |
+

-+

+

=+

+

==|
| 0 NVIDIA GeForce RTX 3060 ... WDDM | 00000000:01:00.0 On | N/A |
| N/A 56C P0 28W / 105W | 1079MiB / 6144MiB | 2% Default |
| | | N/A |
+

-+

+

--+

+

=|
| 0 N/A N/A 4204 C+G ...Chrome\Application\chrome.exe N/A |
| 0 N/A N/A 4664 C+G ...Next\CNext\RadeonSoftware.exe N/A |
| 0 N/A N/A 9228 C+G C:\Windows\explorer.exe N/A |
| 0 N/A N/A 13292 C+G ...xyewy\ShellExperienceHost.exe N/A |
| 0 N/A N/A 13520 C+G ...y\StartMenuExperienceHost.exe N/A |
| 0 N/A N/A 15468 C+G ...11.28973.206\QQPCExternal.exe N/A |
| 0 N/A N/A 16380 C+G ..._cw5n1h2txyewy\SearchHost.exe N/A |
| 0 N/A N/A 16756 C+G ...ogram Files\ToDesk\ToDesk.exe N/A |
| 0 N/A N/A 17208 C+G ...Chrome\Application\chrome.exe N/A |
| 0 N/A N/A 18180 C+G ...mba6cd70vzyy\ArmouryCrate.exe N/A |
| 0 N/A N/A 18936 C+G ...5n1h2txyewy\TextInputHost.exe N/A |
| 0 N/A N/A 19168 C+G ...11.28973.206\QQPCExternal.exe N/A |
| 0 N/A N/A 19896 C+G ...8bbwe\PhoneExperienceHost.exe N/A |
| 0 N/A N/A 20736 C+G ...yb3d8bbwe\WindowsTerminal.exe N/A |
| 0 N/A N/A 20944 C+G ...D\CNext\CNext\AMDRSSrcExt.exe N/A |
| 0 N/A N/A 21952 C+G ...t\Edge\Application\msedge.exe N/A |
| 0 N/A N/A 22796 C+G ...les\AweSun\flutter\AweSun.exe N/A |
| 0 N/A N/A 23376 C+G ...acted\runtime\WeChatAppEx.exe N/A |
| 0 N/A N/A 23700 C+G ....0.3856.84\msedgewebview2.exe N/A |
| 0 N/A N/A 23732 C+G ...rive Mount\RaiDrive.Mount.exe N/A |
| 0 N/A N/A 24860 C+G ...6hy\Build\Plugins\Mpv\mpv.exe N/A |
| 0 N/A N/A 24920 C+G ...7hta09mmv6hy\Build\Lively.exe N/A |
| 0 N/A N/A 25092 C+G ...a09mmv6hy\Lively.UI.WinUI.exe N/A |
| 0 N/A N/A 26588 C+G ....0.3856.84\msedgewebview2.exe N/A |
+

-+
这个是CUDA

Floor #9 DeepSeek reply at 2 months ago

您的 CUDA 版本是 13.0，而 pyVideoTrans 软件内置支持的是 CUDA 12.8。版本不兼容是导致语音识别进程被终止或无法正常使用 GPU 加速的根本原因。核心原因：CUDA 版本不匹配。软件要求 CUDA 12.8，而您的系统是 CUDA 13.0。解决方案：降级 CUDA 至 12.8：这是最直接的解决方案。您需要卸载当前的 CUDA 13.0 驱动和工具包，然后重新安装 CUDA 12.8 及对应的 cuDNN 9.x 版本。具体步骤可参考知识库中的安装指南。在降级前，请先备份重要数据。尝试使用 CPU 模式（不推荐，速度极慢）：在主界面，取消勾选右上角的 CUDA加速复选框。这将强制软件使用 CPU 进行语音识别。请注意，使用 large-v3 模型在 CPU 上运行会非常缓慢，且需要大量内存（建议 16GB 以上）。验证软件内置 CUDA 支持：软件包内可能已包含必要的 CUDA 运行时库。请确保您使用的是从官网下载的完整预打包版（.7z 压缩包），而不是升级补丁包。完整包应包含所有必要的依赖。如果问题依旧，可以尝试在菜单 -> 工具 -> 高级选项 -> 语音识别参数中，将 CUDA数据类型从 default 改为 float16 或 int8，以降低显存需求并尝试兼容。操作步骤总结（首选）：备份当前工作。从 NVIDIA 官网下载并安装 CUDA 12.8 工具包。下载并安装与之匹配的 cuDNN 9.x 版本。安装完成后，重启计算机。重新运行 pyVideoTrans，确保 CUDA加速已勾选，再次尝试语音识别。如果暂时不想降级 CUDA，可以取消勾选 CUDA加速，使用 CPU 模式识别（需耐心等待）。请查阅相关文档：windows上安装CUDA12.8和cuDNN9.11 总是提示显存不足

Floor #10 154.64* reply at 2 months ago

请注意，使用 large-v3 模型在 CPU 上运行会非常缓慢，且需要大量内存（建议 16GB 以上），这个咋弄嘞，如何看，还要12.8这个咋个搞，咋个卸载，咋个弄

Floor #11 DeepSeek reply at 2 months ago

要解决您的问题，需要完成两件事：1. 查看当前电脑内存；2. 将CUDA从13.0降级到12.8。

1. 如何查看电脑内存（RAM）

方法一（推荐）：
1. 同时按下键盘上的 Ctrl + Shift + Esc 键，打开“任务管理器”。
2. 点击顶部的“性能”选项卡。
3. 在左侧选择“内存”。
4. 在右侧可以看到“已使用”和“可用”内存，以及右上角的总内存大小（例如 16.0 GB）。
方法二：
1. 右键点击桌面上的“此电脑”或“我的电脑”图标。
2. 选择“属性”。
3. 在“设备规格”部分，可以看到“已安装的内存(RAM)”。

如果您的内存小于16GB，使用CPU运行large-v3模型很可能因内存不足而失败或极慢。

2. 如何卸载CUDA 13.0并安装CUDA 12.8

重要提示：操作前请关闭所有程序。

步骤一：卸载现有CUDA

打开Windows的“控制面板”。
进入“程序和功能”。
在程序列表中找到所有名称以“NVIDIA”开头，且包含“CUDA”字样的项目（例如 “NVIDIA CUDA 13.0.xx Toolkit”）。
右键点击它们，选择“卸载”，并按照提示完成卸载。
重启计算机。

步骤二：下载CUDA 12.8安装包

访问NVIDIA CUDA Toolkit存档页面：https://developer.nvidia.com/cuda-toolkit-archive
在列表中找到 CUDA Toolkit 12.8.0 并点击进入。
根据您的操作系统（Windows）选择相应的安装程序。通常选择：
- 操作系统：Windows
- 架构：x86_64
- 版本：Windows 10 或 Windows 11
- 安装程序类型：选择 exe (local) 进行本地下载。
下载完成后，您会得到一个类似 cuda_12.8.0_xxx_windows.exe 的文件。

步骤三：安装CUDA 12.8

双击运行下载的 cuda_12.8.0_xxx_windows.exe 安装程序。
安装类型选择“自定义（高级）”。
在组件选择页面，务必取消勾选“Visual Studio Integration”（除非您需要开发），其他组件保持默认即可。
点击“下一步”并完成安装。
安装完成后，再次重启计算机。

步骤四：验证安装

重新打开命令提示符（CMD）。
输入 nvcc -V 并回车。
如果显示版本为 release 12.8，则说明CUDA 12.8安装成功。
再次输入 nvidia-smi，顶部显示的“CUDA Version”应该更新为 12.8。

完成以上步骤后，重新运行pyVideoTrans，勾选“CUDA加速”，再次尝试语音识别。

请查阅相关文档：

windows上安装CUDA12.8和cuDNN9.11

Floor #12 154.64* reply at 2 months ago

NVIDIA CUDA Toolkit12.8 在控制面版我是这个啊，还要我CPU是16G的

Floor #13 DeepSeek reply at 2 months ago

从您的信息来看，您已经安装了 CUDA Toolkit 12.8，并且内存是 16GB。问题可能出在软件未能正确调用您安装的 CUDA 12.8 环境。核心原因：系统环境变量可能未正确指向 CUDA 12.8，或者软件在启动时检测到了其他版本的 CUDA 运行时。解决方案：验证 CUDA 环境变量：右键点击“此电脑” -> “属性” -> “高级系统设置” -> “环境变量”。在“系统变量”中，检查 Path 变量。确保其中包含 CUDA 12.8 的安装路径，通常类似：C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.8\binC:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.8\libnvvp同时检查是否有其他版本的 CUDA 路径（如 v13.0）也存在于 Path 中。如果有，请将 v12.8 的路径调整到 v13.0 路径的前面，或者暂时删除 v13.0 的路径。修改后，点击“确定”保存所有设置，并重启计算机。在软件中强制指定 CUDA 路径（如果环境变量无效）：在 pyVideoTrans 软件根目录下，找到并打开 config.ini 文件（如果存在）。或者，在软件启动后，进入菜单 -> 工具 -> 高级选项，检查是否有关于 CUDA 路径的配置项。如果找不到，此步骤可跳过。使用 CPU 模式进行测试（确认问题是否在 GPU 调用）：在 pyVideoTrans 主界面，取消勾选右上角的 CUDA加速复选框。这将强制软件使用 CPU 进行语音识别。使用 large-v3 模型在 16GB 内存上运行是可行的，但速度会非常慢（可能需要数十分钟甚至更久，取决于视频长度）。请耐心等待，观察识别过程是否能正常开始并完成。如果 CPU 模式可以成功识别，则问题确认为 GPU 调用失败。如果 CPU 模式也失败，则问题可能出在视频文件、模型文件或其他设置上。检查模型文件：确认 faster-whisper 的 large-v3 模型已完整下载。模型应位于软件根目录下的 models/models--Systran--faster-whisper-large-v3 文件夹中。如果模型不完整或损坏，可能导致识别进程崩溃。您可以尝试手动下载模型文件（参考知识库“手动下载适用于 faster-whisper(本地) 语音识别渠道的模型”部分）。操作步骤总结：检查并调整系统环境变量 Path，确保 CUDA v12.8 的路径优先。重启电脑。重新运行 pyVideoTrans，勾选 CUDA加速，再次尝试。如果失败，取消勾选 CUDA加速，使用 CPU 模式测试识别是否能进行。如果 CPU 模式成功，则问题在于 GPU 环境配置；如果 CPU 模式也失败，则检查模型文件或尝试其他识别渠道（如 openai-whisper）。请查阅相关文档：windows上安装CUDA12.8和cuDNN9.11 总是提示显存不足在线下载AI模型失败的解决办法

Floor #14 154.64* reply at 2 months ago

我的就是没有13.0这些啊，就是12.8环境变量也是12.8的

Floor #15 DeepSeek reply at 2 months ago

既然您的环境只有 CUDA 12.8，且环境变量正确，但语音识别进程仍被终止，问题可能出在模型文件不完整或软件内部调用 GPU 时遇到兼容性问题。核心原因：faster-whisper 的 large-v3 模型文件可能下载不完整或损坏，导致加载失败。或者，软件与当前显卡驱动/CUDA 组合存在特定兼容性问题。解决方案：验证并重新下载模型文件：关闭 pyVideoTrans 软件。进入软件安装目录下的 models 文件夹（例如 G:\VideoTrans\Trans\win-pyvideotrans-v3.98-327\models）。检查是否存在文件夹 models--Systran--faster-whisper-large-v3。如果存在，请将其重命名为 models--Systran--faster-whisper-large-v3_backup 作为备份。重新启动 pyVideoTrans 软件。在主界面选择 faster-whisper(本地) 和 large-v3 模型，开始翻译。软件会尝试重新下载模型。请确保网络通畅（可能需要代理）。如果自动下载失败，请手动下载模型文件。具体方法：参考知识库“手动下载适用于 faster-whisper(本地) 语音识别渠道的模型”部分。您需要从 HuggingFace 或镜像站下载所有 .json/.bin/.txt 文件，并放入新建的 models--Systran--faster-whisper-large-v3 文件夹中。调整高级设置以降低 GPU 负载：进入菜单 -> 工具 -> 高级选项 -> 语音识别参数。进行如下调整，以减少显存占用并提高兼容性：CUDA数据类型：从 default 改为 float16 或 int8。识别准确度 beam_size：从 5 改为 1。识别准确度 best_of：从 5 改为 1。启用上下文感知：确保未勾选。尝试其他语音识别渠道（绕过当前问题）：在“语音识别”下拉菜单中，切换到 openai-whisper(本地) 渠道，同样选择 large-v3 模型。该渠道使用不同的后端，可能对您的环境兼容性更好。或者，针对泰语，最佳选择是切换到在线AI识别渠道，如 Gemini大模型识别（需配置API Key和网络代理）。使用 CPU 模式进行最终测试：在主界面取消勾选 CUDA加速。这将使用 CPU 进行识别。虽然速度极慢（16GB内存运行 large-v3 模型会很吃力），但可以验证是否是纯粹的GPU调用问题。如果 CPU 模式可以开始识别（即使很慢），则问题在于GPU环境或模型加载。如果 CPU 模式也立即失败，则问题很可能出在模型文件或视频文件本身。操作步骤总结：备份并删除旧的 large-v3 模型文件夹，让软件重新下载，或手动下载完整模型。调整高级语音识别参数，降低GPU负载。尝试切换语音识别渠道到 openai-whisper(本地)。作为最后的手段，取消 CUDA加速用CPU测试。请查阅相关文档：在线下载AI模型失败的解决办法总是提示显存不足语音识别模型分类与说明

Floor #16 144.48* reply at 2 months ago

| NVIDIA-SMI 581.80 Driver Version: 581.80 CUDA Version: 13.0 为啥我明明是12.8，但是cmd查出来是13.0啊。如何弄

Floor #17 DeepSeek reply at 2 months ago

这是因为您的 NVIDIA 显卡驱动版本（581.80）内嵌支持的最高 CUDA 版本是 13.0。nvidia-smi 显示的是驱动程序支持的最高 CUDA 版本，而不是您实际安装的 CUDA 工具包版本。您实际安装的 CUDA 12.8 工具包是没问题的。核心原因：nvidia-smi 显示的“CUDA Version”是驱动兼容性，不代表已安装的工具包版本。您的系统同时存在 CUDA 12.8 工具包和 CUDA 13.0 驱动兼容层，这可能导致软件在检测时产生混淆或调用错误。解决方案：验证实际安装的 CUDA 工具包版本：打开命令提示符（CMD），输入 nvcc -V 并回车。这个命令显示的是您实际安装的 CUDA 编译工具版本。如果显示为 release 12.8，则证明 CUDA 12.8 工具包已正确安装。确保环境变量指向 CUDA 12.8：右键点击“此电脑” -> “属性” -> “高级系统设置” -> “环境变量”。在“系统变量”中，检查 Path 变量。确保其中包含 CUDA 12.8 的安装路径，例如：C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.8\bin。同时，检查是否有其他版本的 CUDA 路径（例如 v13.0 或旧的 v11.x）也存在于 Path 中。如果有，请将 v12.8 的路径调整到最前面，或者删除其他版本的路径。在“系统变量”中，检查是否有名为 CUDA_PATH 的变量。如果存在，确保其值为 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.8。如果不存在，可以新建一个。修改后，点击“确定”保存，并重启计算机。在软件中尝试切换 CUDA 数据类型：在 pyVideoTrans 中，进入 菜单 -> 工具 -> 高级选项 -> 语音识别参数。将 CUDA数据类型 从 default 改为 float16。这有时能解决因驱动兼容性导致的问题。如果问题依旧，考虑降级显卡驱动：由于驱动 581.80 内嵌支持 CUDA 13.0，可能与 CUDA 12.8 工具包存在细微不兼容。您可以尝试将显卡驱动降级到一个明确支持 CUDA 12.8 的版本。访问 NVIDIA 官网驱动程序下载页面。选择您的显卡型号（GeForce RTX 3060），操作系统等。在“类型”中选择 Studio 驱动程序 或 Game Ready 驱动程序，并选择一个稍旧的版本（例如 5xx.xx 系列中较早的版本）进行安装。安装前，建议使用 DDU 工具在安全模式下彻底卸载现有驱动，再安装旧版驱动。操作步骤总结：在 CMD 中用 nvcc -V 确认 CUDA 12.8 工具包已安装。检查并调整系统环境变量 Path 和 CUDA_PATH，确保指向 v12.8。重启电脑。在软件高级选项中，将 CUDA数据类型 改为 float16。重新运行 pyVideoTrans，勾选 CUDA加速进行测试。如果仍失败，考虑降级显卡驱动至一个与 CUDA 12.8 兼容性更好的版本。请查阅相关文档：windows上安装CUDA12.8和cuDNN9.11

Floor #18 144.48* reply at 2 months ago

C:\Users\lsl>nvcc -V
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2025 NVIDIA Corporation
Built on Fri_Feb_21_20:42:46_Pacific_Standard_Time_2025
Cuda compilation tools, release 12.8, V12.8.93
Build cuda_12.8.r12.8/compiler.35583870_0

C:\Users\lsl>

Floor #19 DeepSeek reply at 2 months ago

很好，nvcc -V 确认您已正确安装 CUDA 12.8 工具包。现在问题在于软件运行时可能未正确调用此环境。核心原因：软件在启动时可能检测到了其他 CUDA 相关的环境或库，或者模型文件有问题，导致 GPU 进程初始化失败。解决方案：在软件中强制使用 CPU 模式进行测试（关键诊断步骤）：在 pyVideoTrans 主界面，取消勾选右上角的 CUDA加速复选框。这将强制软件使用 CPU 进行语音识别。选择 faster-whisper(本地) 和 large-v3 模型，再次尝试翻译。目的：如果 CPU 模式可以正常开始识别（即使速度极慢），则证明问题出在 GPU 调用环节。如果 CPU 模式也立即失败或进程被终止，则问题很可能出在模型文件或视频文件本身。检查并清理模型文件（如果 CPU 模式也失败）：关闭软件。进入软件安装目录下的 models 文件夹。将 models--Systran--faster-whisper-large-v3 文件夹重命名（如改为 large-v3_backup）。重新启动软件，让它重新下载模型。或者，按照知识库指南手动下载完整的模型文件。调整软件高级设置以优化 GPU 调用：进入菜单 -> 工具 -> 高级选项 -> 语音识别参数。进行如下调整：CUDA数据类型：从 default 改为 float16。识别准确度 beam_size：从 5 改为 1。识别准确度 best_of：从 5 改为 1。启用上下文感知：确保未勾选。保存设置，重启软件，勾选 CUDA加速再试。检查软件安装路径权限：您的软件安装在 G:\VideoTrans\Trans\win-pyvideotrans-v3.98-327\。请确保您对该文件夹拥有完全的读写权限（右键文件夹 -> 属性 -> 安全 -> 检查您的用户权限）。尝试使用 openai-whisper 渠道：在“语音识别”下拉菜单中，切换到 openai-whisper(本地) 渠道，同样选择 large-v3 模型。该渠道使用不同的库（PyTorch），可能对您的 CUDA 环境兼容性更好。操作步骤总结：首先，取消勾选 CUDA加速，用 CPU 模式测试。如果 CPU 模式能运行，则问题在 GPU 调用。请清理模型文件并调整高级参数（float16, beam_size=1）后，再启用 CUDA加速测试。如果 CPU 模式也失败，则问题在模型或视频。请清理并重新下载模型文件。如果上述步骤均无效，尝试切换语音识别渠道到 openai-whisper(本地)。请查阅相关文档：总是提示显存不足在线下载AI模型失败的解决办法语音识别模型分类与说明

Floor #20 144.48* reply at 2 months ago

Application started at 2026-03-28 03:59:57

PIL\Image.py:116: RuntimeWarning: The _imaging extension was built for another version of Pillow or PIL:
Core version: 12.1.0
Pillow version: 12.1.1
if version != getattr(core, "PILLOW_VERSION", None):
First searching GPU...
[DEBUG] 返回缓存的编解码器 Windows-264: h264_nvenc
[DEBUG] 返回缓存的编解码器 Windows-265: hevc_nvenc
NVIDIA_GPU_NUMS=1
Found 1 GPUs, cost=4s
start workers...
process_max_gpu=1
multi_gpus=False
Concurrent task_nums=1
process_max=1
start 9 jobs
ended workers
[DEBUG] 最终配置信息：self.cfg=TaskCfgVTT(is_cuda=True, uuid='4be8c64bce', cache_folder='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/32092/4be8c64bce', target_dir='C:/Users/lsl/Downloads/_video_out/ลีน่าช็อกเจอ ปลาขอทานใต้แท้ หรอยแรงสะเทือนครัว The Big Kitchen EP.384_1080p-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/ลีน่าช็อกเจอ ปลาขอทานใต้แท้ หรอยแรงสะเทือนครัว The Big Kitchen EP.384_1080p-mp4
......
alse, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)
[DEBUG] [job] 进入执行语音识别阶段 trk.cfg=TaskCfgVTT(is_cuda=True, uuid='4be8c64bce', cache_folder='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/32092/4be8c64bce', target_dir='C:/Users/lsl/Downloads/_video_out/ลีน่าช็อกเจอ ปลาขอทานใต้แท้ หรอยแรงสะเทือนครัว The Big Kitchen EP.384_1080p-mp4', source_language='泰国语', source_language_code='th', source_sub='C:/Users/lsl/Downloads/_video_out/ลีน่าช็อกเจอ ปลาขอทานใต้แท้ หรอยแรงสะเทือนครัว The Big Kitchen EP.384_1080p-mp4/th.srt', source_wav='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/32092/4be8c64bce/th.wav', source_wav_output='C:/Users/lsl/Downloads/_video_out/ลีน่าช็อกเจอ ปลาขอทานใต้แท้ หรอยแรงสะเทือนครัว The Big Kitchen EP.384_1080p-mp4/th.m4a', target_language='简体中文', target_language_code='zh-cn', target_sub='C:/Users/lsl/Downloads/_video_out/ลีน่าช็อกเจอ ปลาขอทานใต้แท้ หรอยแรงสะเทือนครัว The Big Kitchen EP.384_1080p-mp4/zh-cn.srt', target_wav='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/32092/4be8c64bce/target.wav', target_wav_output='C:/Users/lsl/Downloads/_video_out/ลีน่าช็อกเจอ ปลาขอทานใต้แท้ หรอยแรงสะเทือนครัว The Big Kitchen EP.384_1080p-mp4/zh-cn.m4a', name='C:/Users/lsl/Downloads/ลีน่าช็อกเจอ ปลาขอทานใต้แท้ หรอยแรงสะเทือนครัว The Big Kitchen EP.384_1080p.mp4', noextname='ลีน่าช็อกเจอ ปลาขอทานใต้แท้ หรอยแรงสะเทือนครัว The Big Kitchen EP.384_1080p', basename='ลีน่าช็อกเจอ ปลาขอทานใต้แท้ หรอยแรงสะเทือนครัว The Big Kitchen EP.384_1080p.mp4', ext='mp4', dirname='C:/Users/lsl/Downloads', shound_del_name=None, translate_type=1, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='th', recogn_type=0, model_name='large-v3', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='C:/Users/lsl/Downloads/_video_out/ลีน่าช็อกเจอ ปลาขอทานใต้แท้ หรอยแรงสะเทือนครัว The Big Kitchen EP.384_1080p-mp4/ลีน่าช็อกเจอ ปลาขอทานใต้แท้ หรอยแรงสะเทือนครัว The Big Kitchen EP.384_1080p.mp4', novoice_mp4='G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/32092/4be8c64bce/novoice.mp4', is_separate=False, instrument=None, vocal=None, back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=False, output_srt=0, copysrt_rawvideo=False)

[DEBUG] [recognition]__init__:kwargs={'detect_language': 'th', 'audio_file': 'G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/32092/4be8c64bce/th.wav', 'cache_folder': 'G:/VideoTrans/Trans/win-pyvideotrans-v3.98-327/tmp/32092/4be8c64bce', 'model_name': 'large-v3', 'uuid': '4be8c64bce', 'is_cuda': True, 'subtitle_type': 0, 'recogn_type': 0, 'max_speakers': -1, 'llm_post': False, 'recogn2pass': False}
[DEBUG] BaseRecogn 初始化
为什么还是没有啊，特别慢就算了，语音识别就是没有

Floor #21 DeepSeek reply at 2 months ago

从日志看，软件已进入语音识别阶段并初始化成功，但您感觉“特别慢”且“没有”结果。这通常是由于 faster-whisper 的 large-v3 模型对泰语（小语种）识别效果不佳，导致识别过程缓慢且可能输出空结果或乱码。核心原因：模型与语言不匹配。faster-whisper 的 large-v3 模型虽然支持多语言，但对泰语等小语种的识别准确率和速度都较差。解决方案：切换语音识别渠道（针对泰语的最佳方案）：在“语音识别”下拉菜单中，选择 Gemini大模型识别或 OpenAI语音识别API。这些在线AI大模型对小语种识别效果更好、速度更快。但需要您自行配置API Key和网络代理。如果无法使用在线渠道，尝试本地替代方案：在“语音识别”下拉菜单中，切换到 openai-whisper(本地) 渠道，同样选择 large-v3 模型。该渠道的后端不同，可能对泰语有略微更好的支持。调整高级参数以优化识别（如果坚持使用 faster-whisper）：进入菜单 -> 工具 -> 高级选项 -> 语音识别参数。进行如下调整：语音阈值：降低到 0.3，提高对微弱语音的灵敏度。最长语音持续秒数：设为 6。静音分割持续毫秒：设为 500。在主界面，勾选降噪选项。验证视频内容：确保视频中的人物确实在说泰语，且语音清晰。背景音乐或噪音过大会严重影响识别。使用播放器打开视频，仔细聆听确认。操作步骤总结（按推荐顺序）：首选：切换到 Gemini大模型识别或 OpenAI语音识别API 等在线AI渠道（需配置API和代理）。次选：切换到 openai-whisper(本地) 渠道，使用 large-v3 模型。最后：如果必须使用 faster-whisper，请按上述第2点调整高级参数并开启降噪，然后耐心等待（识别泰语会非常慢）。请查阅相关文档：语音识别模型分类与说明 Gemini AI 进行语音识别 OpenAI语音识别API接口进行识别

Floor #22 144.48* reply at 2 months ago

泰语识别很慢，为啥我用3.75的泰语识别就是很快，30分钟的

Floor #23 DeepSeek reply at 2 months ago

这是因为 v3.75 版本可能使用了不同的语音识别模型或配置，而 v3.98 默认的 faster-whisper large-v3 模型对泰语等小语种的优化不足，导致识别速度极慢。核心原因：模型差异。不同版本的 pyVideoTrans 可能内置了不同的默认语音识别模型或参数。v3.75 可能使用了更小、更快的模型，或者针对泰语有更好的默认配置。解决方案：在 v3.98 中复现 v3.75 的快速识别效果：尝试使用更小的模型：在“语音识别”下拉菜单中，选择 faster-whisper(本地)，然后在右侧模型选择中，尝试使用比 large-v3 更小的模型，例如 medium、small 或 base。模型越小，识别速度越快，但对泰语的准确率会降低。调整高级参数以加速：进入菜单 -> 工具 -> 高级选项 -> 语音识别参数。进行如下调整以大幅提升速度（以牺牲一定准确率为代价）：CUDA数据类型：改为 int8（速度最快，资源消耗最低）。识别准确度 beam_size：改为 1。识别准确度 best_of：改为 1。启用上下文感知：确保未勾选。语音阈值：可以尝试提高到 0.6，减少对可能噪音的处理。检查 v3.75 的具体配置（如果您仍保留旧版）：打开 v3.75 版本软件，查看其“语音识别”渠道和模型选择，以及“高级选项”中的参数设置。在 v3.98 中手动设置成相同的配置。使用针对泰语优化的识别渠道：知识库指出，对于小语种，最佳配置是使用在线AI大模型识别。请切换到 Gemini大模型识别或 OpenAI语音识别API，这通常能获得又快又好的效果（需配置API Key和代理）。操作步骤总结：在 v3.98 中，将语音识别模型从 large-v3 换为 medium 或 small。进入高级选项，将 CUDA数据类型改为 int8，beam_size 和 best_of 都改为 1。保存设置并重新尝试识别。如果速度仍不理想，请考虑切换到 Gemini大模型识别等在线渠道。请查阅相关文档：语音识别模型分类与说明总是提示显存不足 Gemini AI 进行语音识别

Floor #24 144.48* reply at 2 months ago

我就是想要更加准确的泰语识别，faster模型的

Floor #25 DeepSeek reply at 2 months ago

要获得更准确的泰语识别，同时使用 faster-whisper 模型，需要针对泰语优化配置，而不是单纯使用最大的模型。核心原因：faster-whisper 的 large-v3 模型虽然大，但对泰语等小语种并非最优，且默认参数可能不适合泰语语音特点。解决方案：优化高级参数配置（关键步骤）：进入菜单 -> 工具 -> 高级选项 -> 语音识别参数。进行如下针对性调整：语音阈值：降低到 0.3 或 0.2。泰语语音可能音调较高或音量较小，降低阈值可以提高灵敏度。最长语音持续秒数：设为 8 或 10。泰语句子可能较长，避免过早切割。静音分割持续毫秒：设为 800 或 1000。泰语语速可能较快，适当增加静音分割时长有助于正确断句。启用上下文感知：勾选此项。这有助于模型利用上下文信息提高泰语识别准确率，但会稍微增加显存占用。CUDA数据类型：保持为 float16（平衡速度和精度）。如果显存充足（您的RTX 3060 6GB可能紧张），可尝试 float32 以获得最高精度。在主界面，务必勾选降噪选项，以减少背景噪音干扰。尝试不同的 VAD 模型：在“选择VAD”下拉菜单中，尝试切换为 ten-vad 或 silero，看哪个对泰语语音活动检测更准确。使用“预分割音频”模式：在高级选项中，勾选 Whisper预分割音频?。这会将音频预先切割成句子片段再识别，可能对泰语长句识别更友好。同时，将最短语音持续毫秒设为 3000，并勾选合并过短字幕到邻近。验证模型完整性：确保 models/models--Systran--faster-whisper-large-v3 文件夹内的模型文件完整。如有疑问，删除该文件夹，让软件重新下载。操作步骤总结：进入高级选项，按上述第1点精确调整参数（重点是降低语音阈值、增加最长语音时长和静音分割时长、启用上下文感知）。在主界面勾选“降噪”。尝试切换 VAD 模型。勾选“Whisper预分割音频”。保存设置，重启软件，再次尝试识别。如果识别速度过慢但准确率提升，可考虑将 CUDA数据类型改为 int8 加速，但会损失一些精度。请查阅相关文档：语音识别模型分类与说明语音识别中的VAD参数调整优化断句效果，调整语音识别时的字幕时长

#3828 Application started at 2026-03-28 03:10:11 PIL\Image.py:116: RuntimeWarning: The _imaging extension was built for anothe

25 Replies

请查阅相关文档：

请查阅相关文档：

1. 如何查看电脑内存（RAM）

2. 如何卸载CUDA 13.0并安装CUDA 12.8

请查阅相关文档：

Post Your Reply

Related resource