#2374 TaskCfg(cache_folder='D:/win-pyvideotrans-v3.91_20251220_225815/tmp/21584/45b8ec5d6e', target_dir='D:/win-pyvideotrans-v

154.86* Posted at: 7 hours ago 👁31

语音识别阶段出错 [faster-whisper(本地)] 7575.mp4没有识别出字幕,请检查是否包含人类说话声音,以及说话语言是否和你选择的原始语言匹配
Traceback (most recent call last):
File "videotrans\task\job.py", line 113, in run
File "videotrans\task\_speech2text.py", line 161, in recogn
RuntimeError: 7575.mp4没有识别出字幕,请检查是否包含人类说话声音,以及说话语言是否和你选择的原始语言匹配

TaskCfg(cache_folder='D:/win-pyvideotrans-v3.91_20251220_225815/tmp/21584/45b8ec5d6e', target_dir='D:/win-pyvideotrans-v3.91_20251220_225815/output/recogn', remove_noise=False, is_separate=False, detect_language='auto', subtitle_language=None, source_language=None, target_language=None, source_language_code=None, target_language_code=None, source_sub=None, target_sub='D:/win-pyvideotrans-v3.91_20251220_225815/output/recogn/7575.srt', source_wav=None, source_wav_output=None, target_wav=None, target_wav_output=None, subtitles=None, novoice_mp4=None, noextname='7575', shibie_audio='D:/win-pyvideotrans-v3.91_20251220_225815/tmp/21584/45b8ec5d6e/7575-1767096849.5639434.wav', targetdir_mp4=None, instrument=None, vocal=None, back_audio=None, background_music=None, app_mode='biaozhun', subtitle_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role=None, copysrt_rawvideo=False, clear_cache=False, translate_type=None, tts_type=None, recogn_type=0, model_name='large-v3-turbo', split_type=0, voice_autorate=False, video_autorate=False, cuda=True, name='C:/Users/Jackie/Videos/Captures/7575.mp4', basename='7575.mp4', ext='mp4', dirname='C:/Users/Jackie/Videos/Captures', shound_del_name=None, uuid='45b8ec5d6e', remove_silent_mid=False, align_sub_audio=True, enable_diariz=False, nums_diariz=0, rephrase=0, only_out_mp4=False)


=
system:Windows-10-10.0.22631-SP0
version:v3.91
frozen:True
language:zh
root_dir:D:/win-pyvideotrans-v3.91_20251220_225815

15 Replies

根据错误信息,faster-whisper 在识别 7575.mp4 时没有检测到任何人类说话声音。请按以下步骤排查:

  1. 检查视频内容:确认视频中确实包含清晰的人声对话。如果视频只有背景音乐、环境音或无声,则无法识别。
  2. 验证音频轨道:使用播放器(如 PotPlayer、VLC)打开视频,检查是否有音轨,以及音轨是否正常播放。
  3. 调整语音识别设置

    • 降低 VAD 阈值:在菜单栏选择 工具 -> 高级选项,找到“Faster/OpenAI/Whisper 语音识别微调”区域,将“语音阈值”从默认的 0.45 调低(例如 0.30.2),这会使识别更灵敏。
    • 更换识别模型:在主界面第 2 行“语音识别”处,尝试更换为更小的模型(如 mediumsmall),有时对小音量或嘈杂人声更有效。
    • 开启降噪:在主界面第 7 行“快速参数”中勾选“降噪”,或在高级选项的“通用设置”中开启“识别前降噪”。
  4. 检查原始语言设置:在主界面第 3 行“翻译设置”中,确保“发音语言”选择正确。如果不确定,请选择 auto(自动检测)。
  5. 手动提取音频测试:使用工具箱中的“音视频合并/分离”功能,提取视频的音频,然后用播放器听一下是否包含可辨别人声。

如果以上步骤均无效,可能是视频本身人声极其微弱或被严重掩盖,软件无法有效分离。

请查看更多参考文档:

我取消勾选启用cuda后正常输出字幕文件,勾选cuda就显示没有识别出人类说话声音,显卡也不占用

问题已明确:启用 CUDA 加速后,faster-whisper 的语音检测(VAD)模块可能因 GPU 兼容性或显存问题而失效,导致无法检测到人声。而 CPU 模式下 VAD 工作正常。

核心解决方法:强制使用 CPU 进行 VAD 检测,同时保留 GPU 进行模型推理以加速。

请按以下步骤操作:

  1. 设置环境变量(关键步骤):

    • 在 Windows 搜索栏输入 编辑系统环境变量 并打开。
    • 点击 环境变量
    • 系统变量 区域,点击 新建
    • 变量名 输入:CT2_FORCE_CPU_VAD
    • 变量值 输入:1
    • 点击 确定 保存所有窗口。
    • 重要重启 pyVideoTrans 软件 使环境变量生效。
  2. 重启后验证:

    • 重新打开软件,勾选“CUDA加速”
    • 再次处理您的视频 7575.mp4
    • 此时,语音检测(VAD)将在 CPU 上运行,而模型推理会在 GPU 上运行,应该能正常识别并占用显卡。

如果问题依旧,请尝试以下备选方案:

  • 方案A:更新显卡驱动
    前往 NVIDIA 官网下载并安装最新版本的显卡驱动。
  • 方案B:检查 CUDA 和 ctranslate2 版本兼容性

    • 预打包版已集成适配的 CUDA 环境。如果自行源码部署,请确保 ctranslate2 版本与您的 CUDA 版本匹配(例如 CUDA 12.x 对应 ctranslate2 >= 4.0)。
  • 方案C:完全禁用 GPU 进行 VAD(备用)
    如果上述环境变量无效,可以尝试在高级选项中强制设置:

    1. 在软件中进入 工具 -> 高级选项
    2. Faster/OpenAI/Whisper 语音识别微调 区域,找到并勾选 强制使用CPU进行VAD (如果该选项存在)。
    3. 保存并重试。

执行第一步后,问题应能解决。如果仍有问题,请提供 videotrans/logs/ 目录下的最新日志文件。

请查看更多参考文档:

我尝试了第一个方法但是无效
语音识别阶段出错 [faster-whisper(本地)] 7575.mp4没有识别出字幕,请检查是否包含人类说话声音,以及说话语言是否和你选择的原始语言匹配
Traceback (most recent call last):
File "videotrans\task\job.py", line 113, in run
File "videotrans\task\_speech2text.py", line 161, in recogn
RuntimeError: 7575.mp4没有识别出字幕,请检查是否包含人类说话声音,以及说话语言是否和你选择的原始语言匹配

TaskCfg(cache_folder='D:/win-pyvideotrans-v3.91_20251220_225815/tmp/9328/3de554eb59', target_dir='d:/win-pyvideotrans-v3.91_20251220_225815/output/recogn', remove_noise=False, is_separate=False, detect_language='en', subtitle_language=None, source_language=None, target_language=None, source_language_code=None, target_language_code=None, source_sub=None, target_sub='d:/win-pyvideotrans-v3.91_20251220_225815/output/recogn/7575.srt', source_wav=None, source_wav_output=None, target_wav=None, target_wav_output=None, subtitles=None, novoice_mp4=None, noextname='7575', shibie_audio='D:/win-pyvideotrans-v3.91_20251220_225815/tmp/9328/3de554eb59/7575-1767100994.0863547.wav', targetdir_mp4=None, instrument=None, vocal=None, back_audio=None, background_music=None, app_mode='biaozhun', subtitle_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role=None, copysrt_rawvideo=False, clear_cache=False, translate_type=None, tts_type=None, recogn_type=0, model_name='large-v3-turbo', split_type=0, voice_autorate=False, video_autorate=False, cuda=True, name='C:/Users/Jackie/Videos/Captures/7575.mp4', basename='7575.mp4', ext='mp4', dirname='C:/Users/Jackie/Videos/Captures', shound_del_name=None, uuid='3de554eb59', remove_silent_mid=False, align_sub_audio=True, enable_diariz=False, nums_diariz=0, rephrase=0, only_out_mp4=False)

image

image

根据您提供的截图和日志,问题根源已明确:CUDA 加速模式下,faster-whisper 的语音活动检测 (VAD) 模块完全失效,导致无法检测到任何语音片段。而 CPU 模式下 VAD 工作正常。这通常与 GPU 计算精度或特定库版本不兼容有关。

核心解决方案:强制在 CPU 上执行 VAD,同时允许模型推理在 GPU 上进行。

由于设置 CT2_FORCE_CPU_VAD=1 环境变量无效(可能因软件打包方式导致环境变量未被加载),请尝试以下 直接修改软件配置 的方法:

方法一:修改高级选项配置文件(推荐)

  1. 关闭 pyVideoTrans 软件。
  2. 打开软件根目录下的 config.ini 文件(例如 D:/win-pyvideotrans-v3.91_20251220_225815/config.ini)。
  3. [common] 部分,添加或修改以下行:

    [common]
    cuda = true
    force_cpu_vad = true  ; 新增此行,强制VAD在CPU运行
  4. 保存文件,重新启动软件并勾选 CUDA 加速,再次尝试识别。

方法二:使用“强制批量推理”模式(绕过VAD)

如果方法一无效,可以尝试让软件不依赖VAD进行语音检测

  1. 在软件主界面第2行“语音识别”区域,将“识别模式”从 整体识别 改为 批量推理
  2. 批量推理 模式会按时长均匀切分音频后进行识别,不完全依赖VAD检测语音起止点。这通常能解决VAD失效问题,但断句效果可能略差。
  3. 勾选CUDA,再次尝试。

方法三:降级 ctranslate2 版本(终极方案)

如果以上方法均无效,可能是预打包版本中的 ctranslate2 库与您的显卡驱动或CUDA版本存在深层兼容性问题。由于您使用的是预打包版,无法直接降级。您可以:

  1. 从官网下载 最新版本 的预打包软件,覆盖安装(注意备份 config.ini),因为新版本可能已修复此兼容性问题。
  2. 或者,考虑使用 源码部署 方式,这样可以更灵活地控制 ctranslate2 的版本。您可以安装一个稍旧的、更稳定的版本,例如:

    pip install ctranslate2==3.24.0

建议操作顺序:

  1. 首先尝试方法一(修改config.ini),这是最直接的配置方式。
  2. 如果不行,尝试方法二(切换为批量推理),这是一个有效的变通方案。
  3. 如果追求最佳断句效果且上述方法失败,再考虑方法三(更新软件或源码部署)

执行后请观察是否成功识别并占用显卡。如果问题依旧,请提供修改 config.ini 并重启软件后的最新日志文件。

请查看更多参考文档:

config.ini 的路径在哪?

在您提供的日志中,软件根目录是:D:/win-pyvideotrans-v3.91_20251220_225815/。因此,config.ini 文件的完整路径是:D:/win-pyvideotrans-v3.91_20251220_225815/config.ini。请在该目录下找到此文件并用记事本打开进行编辑。

image
没有ini文件

根据您的截图,软件根目录下确实没有 config.ini 文件。这是正常的,因为该文件通常会在您首次更改软件设置并保存后自动生成。既然文件不存在,我们可以通过软件界面直接设置来触发其创建,或者手动创建。请按以下步骤操作:步骤一:通过软件界面设置并保存(推荐)打开 pyVideoTrans 软件。在菜单栏选择 工具 -> 选项 -> 高级选项。在弹出的“高级选项”窗口中,任意修改一个设置(例如,将“软件界面语言”从“中文”切换到“English”,再切换回“中文”)。点击窗口底部的 保存 按钮。关闭“高级选项”窗口,然后完全退出 pyVideoTrans 软件。此时,软件根目录 D:/win-pyvideotrans-v3.91_20251220_225815/ 下应该会生成 config.ini 文件。步骤二:编辑 config.ini 文件用记事本打开新生成的 D:/win-pyvideotrans-v3.91_20251220_225815/config.ini 文件。在文件末尾添加以下两行:[common]
force_cpu_vad = true保存文件。步骤三:重启并测试重新启动 pyVideoTrans 软件。确保主界面第6行“执行与编辑”中的 CUDA加速 是勾选状态。再次尝试对 7575.mp4 进行语音识别。预期结果:软件应能正常识别出字幕,并且您的显卡应该会被占用(可以在任务管理器的“性能”选项卡中查看 GPU 使用情况)。如果按照以上步骤操作后问题依旧,说明通过配置文件控制可能无效。请直接尝试之前提到的 方法二:在主界面第2行“语音识别”区域,将“识别模式”从 整体识别 改为 批量推理,然后勾选CUDA再次尝试。这通常能绕过VAD问题。

还是没解决,但是我问一下faster-whisper运行需要cuda吗?

faster-whisper 运行不一定需要 CUDA。它可以在纯 CPU 模式下运行,但速度会慢很多。您遇到的情况是:CUDA 模式下的 VAD (语音活动检测) 模块存在兼容性问题,导致检测不到人声,而 CPU 模式下的 VAD 工作正常。这属于特定环境下的 bug 或兼容性问题。既然配置文件修改无效,且您已确认 CPU 模式可以工作,我们采取一个 折中且有效的方案让模型推理部分使用 GPU (CUDA) 加速,但强制 VAD 检测部分使用 CPU。 这需要通过设置一个 系统环境变量 来实现,并且需要确保软件能读取到它。由于之前设置 CT2_FORCE_CPU_VAD=1 可能因软件启动方式未继承环境变量而失败,请尝试以下 更彻底的方法方法:修改软件启动脚本,直接注入环境变量1. 找到启动脚本:在您的软件根目录 D:/win-pyvideotrans-v3.91_20251220_225815/ 下,找到启动文件 sp.exe。2. 创建批处理文件

*   在 `sp.exe` 的同级目录下,新建一个文本文件。
*   将其重命名为 `start_with_cpu_vad.bat` (注意扩展名是 `.bat`)。
*   右键点击此 `.bat` 文件,选择“编辑”,输入以下内容:
```batch
@echo off
set CT2_FORCE_CPU_VAD=1
start sp.exe
```
*   保存文件。3.  **通过批处理文件启动软件**:
*   以后都**双击运行这个 `start_with_cpu_vad.bat`** 文件来启动 pyVideoTrans。
*   这样,`CT2_FORCE_CPU_VAD=1` 的环境变量会在软件进程启动前被设置。4.  **验证**:
*   启动后,在主界面勾选 **CUDA加速**。
*   再次处理您的视频。**预期效果**:语音识别应该能正常进行(利用了CPU的VAD),同时模型计算会使用GPU加速,您的显卡应该会被占用。**如果此方法仍然无效**,则说明当前版本的 faster-whisper/ctranslate2 在您的系统上,**只要启用CUDA,其VAD模块就无法正常工作**。此时,您有两个选择:1.  **放弃CUDA,使用纯CPU模式**:不勾选CUDA加速。识别速度会慢,但功能正常。2.  **使用“批量推理”模式(最可能成功的变通方案)**:这是解决此类VAD兼容性问题的最有效方法。**在主界面第2行,将“识别模式”从“整体识别”切换到“批量推理”**。此模式不依赖VAD来检测语音片段,而是直接将音频均等切分后识别,因此完全避开了有问题的VAD模块。**勾选CUDA**后,整个识别过程(包括模型计算)都会使用GPU加速,您的显卡会被占用,且识别能正常进行。**总结建议**:请您优先尝试 **“批量推理”模式**,这很可能是解决您问题最快、最有效的方法。如果追求更好的断句效果且愿意多做一些配置,再尝试创建批处理文件的方法。

语音识别阶段出错 [faster-whisper(本地)] Traceback (most recent call last):
File "videotrans\process\_overall.py", line 229, in run
File "faster_whisper\transcribe.py", line 1851, in restore_speech_timestamps
File "faster_whisper\transcribe.py", line 586, in _batched_segments_generator
File "faster_whisper\transcribe.py", line 120, in forward
File "faster_whisper\transcribe.py", line 209, in generate_segment_batched
File "faster_whisper\transcribe.py", line 1400, in encode
RuntimeError: CUDA failed with error out of memory

Traceback (most recent call last):
File "videotrans\task\job.py", line 113, in run
File "videotrans\task\_speech2text.py", line 146, in recogn
File "videotrans\recognition\__init__.py", line 245, in run
File "videotrans\recognition\_base.py", line 80, in run
File "videotrans\recognition\_overall.py", line 182, in _exec
RuntimeError: Traceback (most recent call last):
File "videotrans\process\_overall.py", line 229, in run
File "faster_whisper\transcribe.py", line 1851, in restore_speech_timestamps
File "faster_whisper\transcribe.py", line 586, in _batched_segments_generator
File "faster_whisper\transcribe.py", line 120, in forward
File "faster_whisper\transcribe.py", line 209, in generate_segment_batched
File "faster_whisper\transcribe.py", line 1400, in encode
RuntimeError: CUDA failed with error out of memory

TaskCfg(cache_folder='D:/win-pyvideotrans-v3.92/tmp/24068/3b48690045', target_dir='D:/win-pyvideotrans-v3.92/output/recogn', remove_noise=False, is_separate=False, detect_language='en', subtitle_language=None, source_language=None, target_language=None, source_language_code=None, target_language_code=None, source_sub=None, target_sub='D:/win-pyvideotrans-v3.92/output/recogn/7575.srt', source_wav=None, source_wav_output=None, target_wav=None, target_wav_output=None, subtitles=None, novoice_mp4=None, noextname='7575', shibie_audio='D:/win-pyvideotrans-v3.92/tmp/24068/3b48690045/7575-1767103252.5204766.wav', targetdir_mp4=None, instrument=None, vocal=None, back_audio=None, background_music=None, app_mode='biaozhun', subtitle_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role=None, copysrt_rawvideo=False, clear_cache=False, translate_type=None, tts_type=None, recogn_type=0, model_name='large-v3-turbo', split_type=1, voice_autorate=False, video_autorate=False, cuda=True, name='C:/Users/Jackie/Videos/Captures/7575.mp4', basename='7575.mp4', ext='mp4', dirname='C:/Users/Jackie/Videos/Captures', shound_del_name=None, uuid='3b48690045', remove_silent_mid=False, align_sub_audio=True, enable_diariz=False, nums_diariz=0, rephrase=0, only_out_mp4=False)

问题已明确:CUDA 显存不足 (out of memory)。您使用了 large-v3-turbo 模型并启用了 CUDA,但该模型在“整体识别”模式下(split_type=1 表示批量推理)处理音频时所需显存超过了您显卡的可用容量。请按以下步骤解决,核心是降低显存占用:1. 更换更小的识别模型:在主界面第2行“语音识别”处,将模型从 large-v3-turbo 更换为更小的版本,例如 mediumsmalltinytiny 模型所需显存最小,速度最快,但准确率略低。这是最直接有效的方法。2. 调整高级识别参数(关键):在菜单栏选择 工具 -> 选项 -> 高级选项。找到 “Faster/OpenAI/Whisper 语音识别微调” 区域,进行以下设置: CUDA数据类型:从默认的 float32 改为 float16int8int8 显存占用最小,推荐优先尝试。 识别准确度 (beam_size):将 beam_size 从默认的 5 改为 1。这能显著减少显存占用。 识别准确度 (best_of):将 best_of 从默认的 5 改为 1 启用上下文感知:确保此项为 False,以节省显存。保存设置并重启软件。3. 确保使用“批量推理”模式:您日志中的 split_type=1 表明已在使用“批量推理”,这是正确的,因为它比“整体识别”更节省显存。请保持此设置。4. 检查后台程序:关闭其他可能占用大量显存的程序(如游戏、大型设计软件、其他AI工具)。5. 终极方案:使用纯CPU模式:如果以上调整后仍报显存不足,说明您的显卡(可能是显存较小的笔记本显卡)无法承载该任务。请取消勾选主界面的“CUDA加速”,让软件完全使用CPU进行识别。速度会慢,但可以完成工作。操作顺序建议:首先尝试 步骤1(更换为 mediumsmall 模型) 结合 步骤2(修改高级参数),这应该能解决绝大多数显存不足问题。如果不行,再尝试步骤5(使用CPU模式)。执行后请观察是否成功。如果问题依旧,请提供您的显卡型号和显存大小,以便进一步分析。请查看更多参考文档:优化语音识别精度和断句效果faster/openai选择模型

语音识别阶段出错 [faster-whisper(本地)] Traceback (most recent call last):
File "videotrans\process\_overall.py", line 190, in run
File "faster_whisper\transcribe.py", line 416, in transcribe
RuntimeError: No clip timestamps found. Set 'vad_filter' to True or provide 'clip_timestamps'.

Traceback (most recent call last):
File "videotrans\task\job.py", line 113, in run
File "videotrans\task\_speech2text.py", line 146, in recogn
File "videotrans\recognition\__init__.py", line 245, in run
File "videotrans\recognition\_base.py", line 80, in run
File "videotrans\recognition\_overall.py", line 182, in _exec
RuntimeError: Traceback (most recent call last):
File "videotrans\process\_overall.py", line 190, in run
File "faster_whisper\transcribe.py", line 416, in transcribe
RuntimeError: No clip timestamps found. Set 'vad_filter' to True or provide 'clip_timestamps'.

TaskCfg(cache_folder='D:/win-pyvideotrans-v3.92/tmp/24068/d4a13f1da6', target_dir='D:/win-pyvideotrans-v3.92/output/recogn', remove_noise=False, is_separate=False, detect_language='en', subtitle_language=None, source_language=None, target_language=None, source_language_code=None, target_language_code=None, source_sub=None, target_sub='D:/win-pyvideotrans-v3.92/output/recogn/7575.srt', source_wav=None, source_wav_output=None, target_wav=None, target_wav_output=None, subtitles=None, novoice_mp4=None, noextname='7575', shibie_audio='D:/win-pyvideotrans-v3.92/tmp/24068/d4a13f1da6/7575-1767104220.8706172.wav', targetdir_mp4=None, instrument=None, vocal=None, back_audio=None, background_music=None, app_mode='biaozhun', subtitle_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role=None, copysrt_rawvideo=False, clear_cache=False, translate_type=None, tts_type=None, recogn_type=0, model_name='tiny', split_type=1, voice_autorate=False, video_autorate=False, cuda=True, name='C:/Users/Jackie/Videos/Captures/7575.mp4', basename='7575.mp4', ext='mp4', dirname='C:/Users/Jackie/Videos/Captures', shound_del_name=None, uuid='d4a13f1da6', remove_silent_mid=False, align_sub_audio=True, enable_diariz=False, nums_diariz=0, rephrase=0, only_out_mp4=False)

问题已明确:您将模型换成了 tiny 并使用了“批量推理”模式 (split_type=1),但该模式在 faster-whisper 底层需要提供时间戳片段 (clip_timestamps) 或启用 VAD 过滤 (vad_filter=True)。由于您之前遇到 CUDA VAD 失效的问题,导致“批量推理”模式也无法正常工作。核心解决方案:强制启用 VAD 过滤,并确保它在 CPU 上运行。请按以下步骤操作:1. 创建并运行批处理文件(强制VAD在CPU运行):在软件根目录 D:/win-pyvideotrans-v3.92/ 下,新建一个文本文件,重命名为 start_cpu_vad.bat,右键编辑,输入以下内容并保存:batch@echo offset CT2_FORCE_CPU_VAD=1start sp.exe以后始终通过双击这个 start_cpu_vad.bat 文件来启动软件。2. 在软件中调整识别参数:启动软件后,进行以下设置: 主界面第2行“语音识别” 模型:可以换回 large-v3-turbomedium(因为现在VAD问题有望解决,可以使用更大模型)。 识别模式切换回“整体识别”。这是关键一步,因为“整体识别”模式依赖VAD,而我们已强制VAD在CPU运行,应该能工作了。 菜单栏 -> 工具 -> 选项 -> 高级选项 在“Faster/OpenAI/Whisper 语音识别微调”区域,确保 语音阈值 设置为一个较低的值(例如 0.3),以提高检测灵敏度。 CUDA数据类型 改为 int8 以节省显存。 beam_sizebest_of 都改为 1 以进一步减少显存占用。 点击 保存。3. 执行识别:勾选“CUDA加速”,再次处理您的视频。预期结果:VAD 检测将在 CPU 上成功运行,找到人声片段,然后模型推理在 GPU 上执行,最终正常输出字幕。如果上述方法仍然报错,则说明当前软件环境与 faster-whisper 的 VAD 模块存在深度兼容性问题。此时,请使用以下 备用方案,它完全避开 VAD: 主界面第2行“语音识别” 模型:保持 tinysmall 识别模式切换回“批量推理” 菜单栏 -> 工具 -> 选项 -> 高级选项 在“Faster/OpenAI/Whisper 语音识别微调”区域,勾选“强制批量推理” (如果存在此选项)。 或者,找到并修改 clip_timestamps 相关参数,将其设置为一个固定时间间隔,例如 [0, 10, 20, ...] (但这需要更复杂的配置)。更简单的方法是直接使用“强制批量推理”选项。总结:请优先尝试 步骤1和2(批处理启动 + 整体识别),这是最理想的解决方案。如果不行,再使用 备用方案(批量推理 + 强制批量推理选项)

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Donate: https://ko-fi.com/jianchang512

Trending Questions