#2374 TaskCfg(cache_folder='D:/win-pyvideotrans-v3.91_20251220_225815/tmp/21584/45b8ec5d6e', target_dir='D:/win-pyvideotrans-v

154.86* Posted at: 2 months ago 👁153

语音识别阶段出错 [faster-whisper(本地)] 7575.mp4没有识别出字幕，请检查是否包含人类说话声音，以及说话语言是否和你选择的原始语言匹配
Traceback (most recent call last):
File "videotrans\task\job.py", line 113, in run
File "videotrans\task\_speech2text.py", line 161, in recogn
RuntimeError: 7575.mp4没有识别出字幕，请检查是否包含人类说话声音，以及说话语言是否和你选择的原始语言匹配

TaskCfg(cache_folder='D:/win-pyvideotrans-v3.91_20251220_225815/tmp/21584/45b8ec5d6e', target_dir='D:/win-pyvideotrans-v3.91_20251220_225815/output/recogn', remove_noise=False, is_separate=False, detect_language='auto', subtitle_language=None, source_language=None, target_language=None, source_language_code=None, target_language_code=None, source_sub=None, target_sub='D:/win-pyvideotrans-v3.91_20251220_225815/output/recogn/7575.srt', source_wav=None, source_wav_output=None, target_wav=None, target_wav_output=None, subtitles=None, novoice_mp4=None, noextname='7575', shibie_audio='D:/win-pyvideotrans-v3.91_20251220_225815/tmp/21584/45b8ec5d6e/7575-1767096849.5639434.wav', targetdir_mp4=None, instrument=None, vocal=None, back_audio=None, background_music=None, app_mode='biaozhun', subtitle_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role=None, copysrt_rawvideo=False, clear_cache=False, translate_type=None, tts_type=None, recogn_type=0, model_name='large-v3-turbo', split_type=0, voice_autorate=False, video_autorate=False, cuda=True, name='C:/Users/Jackie/Videos/Captures/7575.mp4', basename='7575.mp4', ext='mp4', dirname='C:/Users/Jackie/Videos/Captures', shound_del_name=None, uuid='45b8ec5d6e', remove_silent_mid=False, align_sub_audio=True, enable_diariz=False, nums_diariz=0, rephrase=0, only_out_mp4=False)

=
system:Windows-10-10.0.22631-SP0
version:v3.91
frozen:True
language:zh
root_dir:D:/win-pyvideotrans-v3.91_20251220_225815

Floor #1 DeepSeek AI reply at 2 months ago

根据错误信息，faster-whisper 在识别 7575.mp4 时没有检测到任何人类说话声音。请按以下步骤排查：

检查视频内容：确认视频中确实包含清晰的人声对话。如果视频只有背景音乐、环境音或无声，则无法识别。
验证音频轨道：使用播放器（如 PotPlayer、VLC）打开视频，检查是否有音轨，以及音轨是否正常播放。
调整语音识别设置：
- 降低 VAD 阈值：在菜单栏选择 工具 -> 高级选项，找到“Faster/OpenAI/Whisper 语音识别微调”区域，将“语音阈值”从默认的 0.45 调低（例如 0.3 或 0.2），这会使识别更灵敏。
- 更换识别模型：在主界面第 2 行“语音识别”处，尝试更换为更小的模型（如 medium 或 small），有时对小音量或嘈杂人声更有效。
- 开启降噪：在主界面第 7 行“快速参数”中勾选“降噪”，或在高级选项的“通用设置”中开启“识别前降噪”。
检查原始语言设置：在主界面第 3 行“翻译设置”中，确保“发音语言”选择正确。如果不确定，请选择 auto（自动检测）。
手动提取音频测试：使用工具箱中的“音视频合并/分离”功能，提取视频的音频，然后用播放器听一下是否包含可辨别人声。

如果以上步骤均无效，可能是视频本身人声极其微弱或被严重掩盖，软件无法有效分离。

请查看更多参考文档：

Floor #2 154.86* reply at 2 months ago

我取消勾选启用cuda后正常输出字幕文件，勾选cuda就显示没有识别出人类说话声音，显卡也不占用

Floor #3 DeepSeek AI reply at 2 months ago

问题已明确：启用 CUDA 加速后，faster-whisper 的语音检测（VAD）模块可能因 GPU 兼容性或显存问题而失效，导致无法检测到人声。而 CPU 模式下 VAD 工作正常。

核心解决方法：强制使用 CPU 进行 VAD 检测，同时保留 GPU 进行模型推理以加速。

请按以下步骤操作：

设置环境变量（关键步骤）：
- 在 Windows 搜索栏输入 编辑系统环境变量 并打开。
- 点击 环境变量。
- 在 系统变量 区域，点击 新建。
- 变量名 输入：CT2_FORCE_CPU_VAD
- 变量值 输入：1
- 点击 确定 保存所有窗口。
- 重要：重启 pyVideoTrans 软件 使环境变量生效。
重启后验证：
- 重新打开软件，勾选“CUDA加速”。
- 再次处理您的视频 7575.mp4。
- 此时，语音检测（VAD）将在 CPU 上运行，而模型推理会在 GPU 上运行，应该能正常识别并占用显卡。

如果问题依旧，请尝试以下备选方案：

方案A：更新显卡驱动
前往 NVIDIA 官网下载并安装最新版本的显卡驱动。
方案B：检查 CUDA 和 ctranslate2 版本兼容性
- 预打包版已集成适配的 CUDA 环境。如果自行源码部署，请确保 ctranslate2 版本与您的 CUDA 版本匹配（例如 CUDA 12.x 对应 ctranslate2 >= 4.0）。
方案C：完全禁用 GPU 进行 VAD（备用）
如果上述环境变量无效，可以尝试在高级选项中强制设置：
1. 在软件中进入 工具 -> 高级选项。
2. 在 Faster/OpenAI/Whisper 语音识别微调 区域，找到并勾选 强制使用CPU进行VAD (如果该选项存在)。
3. 保存并重试。

执行第一步后，问题应能解决。如果仍有问题，请提供 videotrans/logs/ 目录下的最新日志文件。

请查看更多参考文档:

Floor #4 154.86* reply at 2 months ago

我尝试了第一个方法但是无效
语音识别阶段出错 [faster-whisper(本地)] 7575.mp4没有识别出字幕，请检查是否包含人类说话声音，以及说话语言是否和你选择的原始语言匹配
Traceback (most recent call last):
File "videotrans\task\job.py", line 113, in run
File "videotrans\task\_speech2text.py", line 161, in recogn
RuntimeError: 7575.mp4没有识别出字幕，请检查是否包含人类说话声音，以及说话语言是否和你选择的原始语言匹配

TaskCfg(cache_folder='D:/win-pyvideotrans-v3.91_20251220_225815/tmp/9328/3de554eb59', target_dir='d:/win-pyvideotrans-v3.91_20251220_225815/output/recogn', remove_noise=False, is_separate=False, detect_language='en', subtitle_language=None, source_language=None, target_language=None, source_language_code=None, target_language_code=None, source_sub=None, target_sub='d:/win-pyvideotrans-v3.91_20251220_225815/output/recogn/7575.srt', source_wav=None, source_wav_output=None, target_wav=None, target_wav_output=None, subtitles=None, novoice_mp4=None, noextname='7575', shibie_audio='D:/win-pyvideotrans-v3.91_20251220_225815/tmp/9328/3de554eb59/7575-1767100994.0863547.wav', targetdir_mp4=None, instrument=None, vocal=None, back_audio=None, background_music=None, app_mode='biaozhun', subtitle_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role=None, copysrt_rawvideo=False, clear_cache=False, translate_type=None, tts_type=None, recogn_type=0, model_name='large-v3-turbo', split_type=0, voice_autorate=False, video_autorate=False, cuda=True, name='C:/Users/Jackie/Videos/Captures/7575.mp4', basename='7575.mp4', ext='mp4', dirname='C:/Users/Jackie/Videos/Captures', shound_del_name=None, uuid='3de554eb59', remove_silent_mid=False, align_sub_audio=True, enable_diariz=False, nums_diariz=0, rephrase=0, only_out_mp4=False)

Floor #5 DeepSeek AI reply at 2 months ago

根据您提供的截图和日志，问题根源已明确：CUDA 加速模式下，faster-whisper 的语音活动检测 (VAD) 模块完全失效，导致无法检测到任何语音片段。而 CPU 模式下 VAD 工作正常。这通常与 GPU 计算精度或特定库版本不兼容有关。

核心解决方案：强制在 CPU 上执行 VAD，同时允许模型推理在 GPU 上进行。

由于设置 CT2_FORCE_CPU_VAD=1 环境变量无效（可能因软件打包方式导致环境变量未被加载），请尝试以下 直接修改软件配置 的方法：

方法一：修改高级选项配置文件（推荐）

关闭 pyVideoTrans 软件。
打开软件根目录下的 config.ini 文件（例如 D:/win-pyvideotrans-v3.91_20251220_225815/config.ini）。

在 [common] 部分，添加或修改以下行：

[common]
cuda = true
force_cpu_vad = true  ; 新增此行，强制VAD在CPU运行

保存文件，重新启动软件并勾选 CUDA 加速，再次尝试识别。

方法二：使用“强制批量推理”模式（绕过VAD）

如果方法一无效，可以尝试让软件不依赖VAD进行语音检测：

在软件主界面第2行“语音识别”区域，将“识别模式”从 整体识别 改为 批量推理。
批量推理 模式会按时长均匀切分音频后进行识别，不完全依赖VAD检测语音起止点。这通常能解决VAD失效问题，但断句效果可能略差。
勾选CUDA，再次尝试。

方法三：降级 ctranslate2 版本（终极方案）

如果以上方法均无效，可能是预打包版本中的 ctranslate2 库与您的显卡驱动或CUDA版本存在深层兼容性问题。由于您使用的是预打包版，无法直接降级。您可以：

从官网下载 最新版本 的预打包软件，覆盖安装（注意备份 config.ini），因为新版本可能已修复此兼容性问题。
或者，考虑使用 源码部署 方式，这样可以更灵活地控制 ctranslate2 的版本。您可以安装一个稍旧的、更稳定的版本，例如：
```
pip install ctranslate2==3.24.0
```

建议操作顺序：

首先尝试方法一（修改config.ini），这是最直接的配置方式。
如果不行，尝试方法二（切换为批量推理），这是一个有效的变通方案。
如果追求最佳断句效果且上述方法失败，再考虑方法三（更新软件或源码部署）。

执行后请观察是否成功识别并占用显卡。如果问题依旧，请提供修改 config.ini 并重启软件后的最新日志文件。

请查看更多参考文档:

Floor #6 154.86* reply at 2 months ago

config.ini 的路径在哪？

Floor #7 DeepSeek AI reply at 2 months ago

在您提供的日志中，软件根目录是：D:/win-pyvideotrans-v3.91_20251220_225815/。因此，config.ini 文件的完整路径是：D:/win-pyvideotrans-v3.91_20251220_225815/config.ini。请在该目录下找到此文件并用记事本打开进行编辑。

Floor #8 154.86* reply at 2 months ago

没有ini文件

Floor #9 DeepSeek AI reply at 2 months ago

根据您的截图，软件根目录下确实没有 config.ini 文件。这是正常的，因为该文件通常会在您首次更改软件设置并保存后自动生成。既然文件不存在，我们可以通过软件界面直接设置来触发其创建，或者手动创建。请按以下步骤操作：步骤一：通过软件界面设置并保存（推荐）打开 pyVideoTrans 软件。在菜单栏选择工具 -> 选项 -> 高级选项。在弹出的“高级选项”窗口中，任意修改一个设置（例如，将“软件界面语言”从“中文”切换到“English”，再切换回“中文”）。点击窗口底部的保存按钮。关闭“高级选项”窗口，然后完全退出 pyVideoTrans 软件。此时，软件根目录 D:/win-pyvideotrans-v3.91_20251220_225815/ 下应该会生成 config.ini 文件。步骤二：编辑 config.ini 文件用记事本打开新生成的 D:/win-pyvideotrans-v3.91_20251220_225815/config.ini 文件。在文件末尾添加以下两行：[common]
force_cpu_vad = true保存文件。步骤三：重启并测试重新启动 pyVideoTrans 软件。确保主界面第6行“执行与编辑”中的 CUDA加速是勾选状态。再次尝试对 7575.mp4 进行语音识别。预期结果：软件应能正常识别出字幕，并且您的显卡应该会被占用（可以在任务管理器的“性能”选项卡中查看 GPU 使用情况）。如果按照以上步骤操作后问题依旧，说明通过配置文件控制可能无效。请直接尝试之前提到的 方法二：在主界面第2行“语音识别”区域，将“识别模式”从整体识别改为批量推理，然后勾选CUDA再次尝试。这通常能绕过VAD问题。

Floor #10 119.181* reply at 2 months ago

还是没解决，但是我问一下faster-whisper运行需要cuda吗？

Floor #11 DeepSeek AI reply at 2 months ago

faster-whisper 运行不一定需要 CUDA。它可以在纯 CPU 模式下运行，但速度会慢很多。您遇到的情况是：CUDA 模式下的 VAD (语音活动检测) 模块存在兼容性问题，导致检测不到人声，而 CPU 模式下的 VAD 工作正常。这属于特定环境下的 bug 或兼容性问题。既然配置文件修改无效，且您已确认 CPU 模式可以工作，我们采取一个 折中且有效的方案：让模型推理部分使用 GPU (CUDA) 加速，但强制 VAD 检测部分使用 CPU。 这需要通过设置一个 系统环境变量 来实现，并且需要确保软件能读取到它。由于之前设置 CT2_FORCE_CPU_VAD=1 可能因软件启动方式未继承环境变量而失败，请尝试以下 更彻底的方法：方法：修改软件启动脚本，直接注入环境变量1. 找到启动脚本：在您的软件根目录 D:/win-pyvideotrans-v3.91_20251220_225815/ 下，找到启动文件 sp.exe。2. 创建批处理文件：

*   在 `sp.exe` 的同级目录下，新建一个文本文件。
*   将其重命名为 `start_with_cpu_vad.bat` (注意扩展名是 `.bat`)。
*   右键点击此 `.bat` 文件，选择“编辑”，输入以下内容：
```batch
@echo off
set CT2_FORCE_CPU_VAD=1
start sp.exe
```
*   保存文件。3.  **通过批处理文件启动软件**：
*   以后都**双击运行这个 `start_with_cpu_vad.bat`** 文件来启动 pyVideoTrans。
*   这样，`CT2_FORCE_CPU_VAD=1` 的环境变量会在软件进程启动前被设置。4.  **验证**：
*   启动后，在主界面勾选 **CUDA加速**。
*   再次处理您的视频。**预期效果**：语音识别应该能正常进行（利用了CPU的VAD），同时模型计算会使用GPU加速，您的显卡应该会被占用。**如果此方法仍然无效**，则说明当前版本的 faster-whisper/ctranslate2 在您的系统上，**只要启用CUDA，其VAD模块就无法正常工作**。此时，您有两个选择：1.  **放弃CUDA，使用纯CPU模式**：不勾选CUDA加速。识别速度会慢，但功能正常。2.  **使用“批量推理”模式（最可能成功的变通方案）**：这是解决此类VAD兼容性问题的最有效方法。**在主界面第2行，将“识别模式”从“整体识别”切换到“批量推理”**。此模式不依赖VAD来检测语音片段，而是直接将音频均等切分后识别，因此完全避开了有问题的VAD模块。**勾选CUDA**后，整个识别过程（包括模型计算）都会使用GPU加速，您的显卡会被占用，且识别能正常进行。**总结建议**：请您优先尝试 **“批量推理”模式**，这很可能是解决您问题最快、最有效的方法。如果追求更好的断句效果且愿意多做一些配置，再尝试创建批处理文件的方法。

Floor #12 119.181* reply at 2 months ago

语音识别阶段出错 [faster-whisper(本地)] Traceback (most recent call last):
File "videotrans\process\_overall.py", line 229, in run
File "faster_whisper\transcribe.py", line 1851, in restore_speech_timestamps
File "faster_whisper\transcribe.py", line 586, in _batched_segments_generator
File "faster_whisper\transcribe.py", line 120, in forward
File "faster_whisper\transcribe.py", line 209, in generate_segment_batched
File "faster_whisper\transcribe.py", line 1400, in encode
RuntimeError: CUDA failed with error out of memory

Traceback (most recent call last):
File "videotrans\task\job.py", line 113, in run
File "videotrans\task\_speech2text.py", line 146, in recogn
File "videotrans\recognition\__init__.py", line 245, in run
File "videotrans\recognition\_base.py", line 80, in run
File "videotrans\recognition\_overall.py", line 182, in _exec
RuntimeError: Traceback (most recent call last):
File "videotrans\process\_overall.py", line 229, in run
File "faster_whisper\transcribe.py", line 1851, in restore_speech_timestamps
File "faster_whisper\transcribe.py", line 586, in _batched_segments_generator
File "faster_whisper\transcribe.py", line 120, in forward
File "faster_whisper\transcribe.py", line 209, in generate_segment_batched
File "faster_whisper\transcribe.py", line 1400, in encode
RuntimeError: CUDA failed with error out of memory

TaskCfg(cache_folder='D:/win-pyvideotrans-v3.92/tmp/24068/3b48690045', target_dir='D:/win-pyvideotrans-v3.92/output/recogn', remove_noise=False, is_separate=False, detect_language='en', subtitle_language=None, source_language=None, target_language=None, source_language_code=None, target_language_code=None, source_sub=None, target_sub='D:/win-pyvideotrans-v3.92/output/recogn/7575.srt', source_wav=None, source_wav_output=None, target_wav=None, target_wav_output=None, subtitles=None, novoice_mp4=None, noextname='7575', shibie_audio='D:/win-pyvideotrans-v3.92/tmp/24068/3b48690045/7575-1767103252.5204766.wav', targetdir_mp4=None, instrument=None, vocal=None, back_audio=None, background_music=None, app_mode='biaozhun', subtitle_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role=None, copysrt_rawvideo=False, clear_cache=False, translate_type=None, tts_type=None, recogn_type=0, model_name='large-v3-turbo', split_type=1, voice_autorate=False, video_autorate=False, cuda=True, name='C:/Users/Jackie/Videos/Captures/7575.mp4', basename='7575.mp4', ext='mp4', dirname='C:/Users/Jackie/Videos/Captures', shound_del_name=None, uuid='3b48690045', remove_silent_mid=False, align_sub_audio=True, enable_diariz=False, nums_diariz=0, rephrase=0, only_out_mp4=False)

Floor #13 DeepSeek AI reply at 2 months ago

问题已明确：CUDA 显存不足 (out of memory)。您使用了 large-v3-turbo 模型并启用了 CUDA，但该模型在“整体识别”模式下（split_type=1 表示批量推理）处理音频时所需显存超过了您显卡的可用容量。请按以下步骤解决，核心是降低显存占用：1. 更换更小的识别模型：在主界面第2行“语音识别”处，将模型从 large-v3-turbo 更换为更小的版本，例如 medium、small 或 tiny。tiny 模型所需显存最小，速度最快，但准确率略低。这是最直接有效的方法。2. 调整高级识别参数（关键）：在菜单栏选择 工具 -> 选项 -> 高级选项。找到 “Faster/OpenAI/Whisper 语音识别微调” 区域，进行以下设置： CUDA数据类型：从默认的 float32 改为 float16 或 int8。int8 显存占用最小，推荐优先尝试。 识别准确度 (beam_size)：将 beam_size 从默认的 5 改为 1。这能显著减少显存占用。 识别准确度 (best_of)：将 best_of 从默认的 5 改为 1。 启用上下文感知：确保此项为 False，以节省显存。保存设置并重启软件。3. 确保使用“批量推理”模式：您日志中的 split_type=1 表明已在使用“批量推理”，这是正确的，因为它比“整体识别”更节省显存。请保持此设置。4. 检查后台程序：关闭其他可能占用大量显存的程序（如游戏、大型设计软件、其他AI工具）。5. 终极方案：使用纯CPU模式：如果以上调整后仍报显存不足，说明您的显卡（可能是显存较小的笔记本显卡）无法承载该任务。请取消勾选主界面的“CUDA加速”，让软件完全使用CPU进行识别。速度会慢，但可以完成工作。操作顺序建议：首先尝试 步骤1（更换为 medium 或 small 模型） 结合 步骤2（修改高级参数），这应该能解决绝大多数显存不足问题。如果不行，再尝试步骤5（使用CPU模式）。执行后请观察是否成功。如果问题依旧，请提供您的显卡型号和显存大小，以便进一步分析。请查看更多参考文档:优化语音识别精度和断句效果 faster/openai选择模型

Floor #14 154.86* reply at 2 months ago

语音识别阶段出错 [faster-whisper(本地)] Traceback (most recent call last):
File "videotrans\process\_overall.py", line 190, in run
File "faster_whisper\transcribe.py", line 416, in transcribe
RuntimeError: No clip timestamps found. Set 'vad_filter' to True or provide 'clip_timestamps'.

Traceback (most recent call last):
File "videotrans\task\job.py", line 113, in run
File "videotrans\task\_speech2text.py", line 146, in recogn
File "videotrans\recognition\__init__.py", line 245, in run
File "videotrans\recognition\_base.py", line 80, in run
File "videotrans\recognition\_overall.py", line 182, in _exec
RuntimeError: Traceback (most recent call last):
File "videotrans\process\_overall.py", line 190, in run
File "faster_whisper\transcribe.py", line 416, in transcribe
RuntimeError: No clip timestamps found. Set 'vad_filter' to True or provide 'clip_timestamps'.

TaskCfg(cache_folder='D:/win-pyvideotrans-v3.92/tmp/24068/d4a13f1da6', target_dir='D:/win-pyvideotrans-v3.92/output/recogn', remove_noise=False, is_separate=False, detect_language='en', subtitle_language=None, source_language=None, target_language=None, source_language_code=None, target_language_code=None, source_sub=None, target_sub='D:/win-pyvideotrans-v3.92/output/recogn/7575.srt', source_wav=None, source_wav_output=None, target_wav=None, target_wav_output=None, subtitles=None, novoice_mp4=None, noextname='7575', shibie_audio='D:/win-pyvideotrans-v3.92/tmp/24068/d4a13f1da6/7575-1767104220.8706172.wav', targetdir_mp4=None, instrument=None, vocal=None, back_audio=None, background_music=None, app_mode='biaozhun', subtitle_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role=None, copysrt_rawvideo=False, clear_cache=False, translate_type=None, tts_type=None, recogn_type=0, model_name='tiny', split_type=1, voice_autorate=False, video_autorate=False, cuda=True, name='C:/Users/Jackie/Videos/Captures/7575.mp4', basename='7575.mp4', ext='mp4', dirname='C:/Users/Jackie/Videos/Captures', shound_del_name=None, uuid='d4a13f1da6', remove_silent_mid=False, align_sub_audio=True, enable_diariz=False, nums_diariz=0, rephrase=0, only_out_mp4=False)

Floor #15 DeepSeek AI reply at 2 months ago

问题已明确：您将模型换成了 tiny 并使用了“批量推理”模式 (split_type=1)，但该模式在 faster-whisper 底层需要提供时间戳片段 (clip_timestamps) 或启用 VAD 过滤 (vad_filter=True)。由于您之前遇到 CUDA VAD 失效的问题，导致“批量推理”模式也无法正常工作。核心解决方案：强制启用 VAD 过滤，并确保它在 CPU 上运行。请按以下步骤操作：1. 创建并运行批处理文件（强制VAD在CPU运行）：在软件根目录 D:/win-pyvideotrans-v3.92/ 下，新建一个文本文件，重命名为 start_cpu_vad.bat，右键编辑，输入以下内容并保存：batch@echo offset CT2_FORCE_CPU_VAD=1start sp.exe以后始终通过双击这个 start_cpu_vad.bat 文件来启动软件。2. 在软件中调整识别参数：启动软件后，进行以下设置： 主界面第2行“语音识别”：模型：可以换回 large-v3-turbo 或 medium（因为现在VAD问题有望解决，可以使用更大模型）。 识别模式：切换回“整体识别”。这是关键一步，因为“整体识别”模式依赖VAD，而我们已强制VAD在CPU运行，应该能工作了。 菜单栏 -> 工具 -> 选项 -> 高级选项： 在“Faster/OpenAI/Whisper 语音识别微调”区域，确保 语音阈值 设置为一个较低的值（例如 0.3），以提高检测灵敏度。 将 CUDA数据类型 改为 int8 以节省显存。 将 beam_size 和 best_of 都改为 1 以进一步减少显存占用。 点击保存。3. 执行识别：勾选“CUDA加速”，再次处理您的视频。预期结果：VAD 检测将在 CPU 上成功运行，找到人声片段，然后模型推理在 GPU 上执行，最终正常输出字幕。如果上述方法仍然报错，则说明当前软件环境与 faster-whisper 的 VAD 模块存在深度兼容性问题。此时，请使用以下 备用方案，它完全避开 VAD： 主界面第2行“语音识别”：模型：保持 tiny 或 small。 识别模式：切换回“批量推理”。 菜单栏 -> 工具 -> 选项 -> 高级选项： 在“Faster/OpenAI/Whisper 语音识别微调”区域，勾选“强制批量推理” (如果存在此选项)。 或者，找到并修改 clip_timestamps 相关参数，将其设置为一个固定时间间隔，例如 [0, 10, 20, ...] (但这需要更复杂的配置)。更简单的方法是直接使用“强制批量推理”选项。总结：请优先尝试 步骤1和2（批处理启动 + 整体识别），这是最理想的解决方案。如果不行，再使用 备用方案（批量推理 + 强制批量推理选项）。

#2374 TaskCfg(cache_folder='D:/win-pyvideotrans-v3.91_20251220_225815/tmp/21584/45b8ec5d6e', target_dir='D:/win-pyvideotrans-v

15 Replies

请查看更多参考文档：

请查看更多参考文档:

方法一：修改高级选项配置文件（推荐）

方法二：使用“强制批量推理”模式（绕过VAD）

方法三：降级 ctranslate2 版本（终极方案）

Post Your Reply

Related resource