#5080 TaskCfgVTT(is_cuda=True, uuid='27e912c73a', cache_folder='E:/short/app/tmp/4996/27e912c73a', target_dir='E:/short/zip/爱如

240e:3b7* Posted at: 6 days ago

语音识别阶段出错 [faster-whisper(本地)] Traceback (most recent call last):
File "videotrans\process\stt_fun.py", line 356, in faster_whisper
File "faster_whisper\transcribe.py", line 689, in init
ValueError: Requested int8_float16 compute type, but the target device or backend do not support efficient int8_float16 computation.

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
File "videotrans\process\stt_fun.py", line 367, in faster_whisper
File "faster_whisper\transcribe.py", line 689, in init
ValueError: Requested float16 compute type, but the target device or backend do not support efficient float16 computation.

Traceback (most recent call last):
File "videotrans\task\job.py", line 105, in run
File "videotrans\task\trans_create.py", line 390, in recogn
File "videotrans\recognition\__init__.py", line 293, in run
File "videotrans\recognition\_base.py", line 143, in run
File "videotrans\recognition\_overall.py", line 33, in _exec
File "videotrans\recognition\_overall.py", line 106, in _faster
File "videotrans\configure\_base.py", line 289, in _new_process
RuntimeError: Traceback (most recent call last):
File "videotrans\process\stt_fun.py", line 356, in faster_whisper
File "faster_whisper\transcribe.py", line 689, in init
ValueError: Requested int8_float16 compute type, but the target device or backend do not support efficient int8_float16 computation.

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
File "videotrans\process\stt_fun.py", line 367, in faster_whisper
File "faster_whisper\transcribe.py", line 689, in init
ValueError: Requested float16 compute type, but the target device or backend do not support efficient float16 computation.
TaskCfgVTT(is_cuda=True, uuid='27e912c73a', cache_folder='E:/short/app/tmp/4996/27e912c73a', target_dir='E:/short/zip/爱如坟墓/subtitles/13-mp4', source_language='简体中文', source_language_code='zh-cn', source_sub='E:/short/zip/爱如坟墓/subtitles/13-mp4/zh-cn.srt', source_wav='E:/short/app/tmp/4996/27e912c73a/zh-cn.wav', source_wav_output='E:/short/zip/爱如坟墓/subtitles/13-mp4/zh-cn.m4a', target_language='英语', target_language_code='en', target_sub='E:/short/zip/爱如坟墓/subtitles/13-mp4/en.srt', target_wav='E:/short/app/tmp/4996/27e912c73a/target.wav', target_wav_output='E:/short/zip/爱如坟墓/subtitles/13-mp4/en.m4a', name='E:/short/zip/爱如坟墓/13.mp4', noextname='13', basename='13.mp4', ext='mp4', dirname='E:/short/zip/爱如坟墓', shound_del_name=None, translate_type=0, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='zh-cn', recogn_type=0, model_name='large-v3-turbo', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='E:/short/zip/爱如坟墓/subtitles/13-mp4/13.mp4', novoice_mp4='E:/short/app/tmp/4996/27e912c73a/novoice.mp4', is_separate=False, embed_bgm=True, instrument=None, vocal='E:/short/app/tmp/4996/27e912c73a/vocal.wav', back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=True, output_srt=0, copysrt_rawvideo=False, loop_backaudio=1, backaudio_volume=0.8)


=
system:Windows-10-10.0.19045-SP0
version:v3.99
frozen:True
language:zh
root_dir:E:/short/app

25 Replies

这是 CUDA 数据类型选择不当导致的。您的显卡不支持 int8_float16 或 float16 半精度计算,需要改为 full precision。

  1. 打开菜单栏 工具/选项 -> 高级选项 -> 语音识别参数,找到 CUDA数据类型
  2. 将其从默认的 int8_float16 改为 float32 (完全精度,兼容所有支持 CUDA 的显卡)。
  3. 如果您的显卡较老(如 GTX 10 系列之前),也可以尝试 int8 ,但 float32 最稳妥。

修改后重启软件并重新执行任务即可。

但是float32 时间会变多长

改为 float32 后,推理速度通常比 int8_float161.5~2 倍(具体取决于显卡型号和显存带宽)。例如原来处理10分钟视频需要5分钟,现在可能需要8~10分钟。

如果希望加快速度,可以尝试改为 int8(纯整型量化)——它在大多数显卡上兼容性更好,速度比 float32 快约30~50%,精度损失可接受。不过某些老显卡可能仍不支持,届时再回退到 float32 即可。

另外,也可以换用更小的模型(如 smallbase)来进一步缩短时间。

small与base 与之前的模型相比 会不会导致音频不准确

改用 small 或 base 模型会降低识别准确率,但不至于导致“完全无意义”的结果。具体影响:

  • small:在干净音频上的准确率尚可,但在口音重、背景嘈杂或专业术语多的场景下错误率会明显增加。
  • base:精度更低,容易出现错字、漏词,尤其是长句和罕见词。

如果您只是为了快速预览,small 可接受;如果希望最终字幕有较高质量,建议仍使用 large-v3-turbo,并通过其他方式优化速度(如改 int8、降低 beam_size 等)。或者可以保留 large-v3-turbo 但关闭 CUDA 加速(纯 CPU 处理,但极慢),仅作临时应急。

这里能不能设置视频转srt字幕 时间超过多久就自动报错。进行下一个

软件没有内置“超时自动跳过”功能。目前无法设置一个固定时长阈值来自动放弃卡住的任务。替代方案:1. 在 高级选项 → 通用设置 中,将 批量翻译视频时每批数量 设为 1(强制串行),这样单个任务卡住时不会影响其他任务,但需要人工点击停止。2. 也可以将 失败后重试次数 设为 1 或 0,减少无效等待。3. 如果某个视频反复卡住,建议单独处理该视频(只选一个),观察具体报错原因。

目前有一个问题。在一批视频中 总是有一两个视频使用gpu会出现你说的这问题。需要手动关闭gpu。这种有什么办法可以让工具自动转cpu吗

软件目前没有自动检测GPU失败后回退到CPU的逻辑。CUDA开关是全局性的,无法为单个视频动态切换。您可以尝试以下方案:1. 在 高级选项 → 语音识别参数 中,将 CUDA数据类型 改为 int8(纯整数量化),这种数据类型兼容性比 int8_float16 更好,大多数显卡(包括旧卡)都支持,且速度比 float32 快。如果部分视频仍报错,说明该显卡连 int8 都不支持,则只能关闭 CUDA。2. 如果个别视频必须关闭 CUDA 才能运行,建议先关闭 CUDA 加速(不勾选主界面的 CUDA加速),统一用 CPU 处理。虽然慢,但能避免频繁手动切换。3. 另外一种折中:把这些有问题的视频单独放入一个文件夹,处理时只勾选它们并关闭 CUDA;处理完后再恢复正常设置处理其他视频。暂时没有更好的自动化办法,如有需要可以向作者(开发者)提功能建议。

主要是有时候不关注他。他使用gpu就会一直在哪里执行。前面有一个视频执行了1个多小时 还在执行

软件目前没有自动超时跳过机制,卡住一个视频会导致整个批处理停滞,需要手动干预。

建议优先尝试方案:

  1. 强制串行 + 降低重试次数

    • 菜单 → 工具/选项 → 高级选项 → 通用设置,将“批量翻译视频时每批数量”设为 1(串行)。
    • 同时将“失败后重试次数”设为 1(或 0)。
    • 这样当某个视频卡住时,只需手动点击“停止”,下一个视频才会开始,不会堆积。
  2. 统一关闭CUDA加速

    • 如果卡住问题反复出现,说明您的显卡对当前模型/数据类型的兼容性不佳。建议直接取消勾选主界面的“CUDA加速”,改用CPU处理。
    • 即使速度慢,但能保证稳定完成,且可以设置高级选项中的“CPU同时任务数”来提高并行效率(建议不超过CPU核心数的一半)。
  3. 单独处理问题视频

    • 识别出经常卡住的视频(通常是音频复杂或时长较长),单独放在一个文件夹中,关闭CUDA后专门处理它们。其它正常视频仍可开启CUDA加速。
  4. 降低GPU负载

    • 菜单 → 工具/选项 → 高级选项 → 语音识别参数:

      • 将“CUDA数据类型”改为 int8(纯整型,兼容性更好,且不易卡死)。
      • 将“识别准确度beam_size”改为 1,“识别准确度best_of”改为 1
      • 取消勾选“启用上下文感知”。
    • 如果仍卡住,可能是显存不足,可尝试使用更小的模型(如 smallbase)。

为什么卡住不报错?
通常是因为显存被占满且进程挂起,或显卡驱动无响应。上述配置能降低此类风险。

如果问题持续,请在单个视频卡住时,打开任务管理器查看GPU占用率,若显存接近100%,则考虑更换模型或关闭CUDA。

CPU同时任务数 设置5 他会通知处理5个视频吗 目前我设置5 为啥不能通知处理5个视频

“CPU同时任务数”是控制单个视频内部处理阶段的并行线程数,而不是同时处理多个视频的个数。您将其设为 5,意味着每个视频在语音识别、翻译、配音等阶段最多使用 5 个 CPU 线程来加速,但视频本身仍然是一个一个依次执行(或按批次串行),取决于批量翻译视频时每批数量。要实现同时处理多个视频,需要:1. 取消勾选“批量翻译时强制串行”(在高级选项-通用设置中);2. 设置“批量翻译视频时每批数量”为您希望同时处理的视频数量(例如设为 5,表示同一批次最多同时处理 5 个视频)。注意:同时处理多个视频会显著增加内存和 CPU/GPU 占用,请根据您的硬件配置适当调整。如果设得过高,可能导致卡死或崩溃。

设置“批量翻译视频时每批数量 这个在哪里设置

在软件顶部菜单栏,依次点击:工具 → 选项,在弹出的窗口中选择 高级选项 页签,然后在 通用设置 区域中找到 批量翻译视频时每批数量 这个参数。将其设为需要同时处理的视频数量(例如 5),保存后生效。注意:同时处理多个视频会显著增加硬件资源占用,建议根据 CPU/GPU 核心数和内存容量合理设置。

在通用设置里面没有找到设置“批量翻译视频时每批数量这个

该选项位于 菜单 → 工具/选项 → 高级选项 → 通用设置 下方。请按以下步骤操作:1. 点击顶部菜单栏的 工具选项。2. 在弹出的设置窗口顶部,点击 高级选项 页签。3. 在左侧列表中点击 通用设置,右侧区域向下滚动,应该能看到 批量翻译视频时每批数量 一项,默认值为 0(表示不限制,即尽量同时处理所有视频)。 如果您仍然找不到,可能是软件版本较旧,建议下载最新完整版(v4.01)覆盖安装。作为替代,可以不勾选 批量翻译时强制串行 并保持该值为 0,系统会自动并行处理多个视频(实际并发数量取决于 CPU/GPU 资源)。

目前还是一个一个在执行。第一个在处理。下面的都是在等待识别。这个是不是只能一个一个来

您描述的情况是因为“批量翻译时强制串行”被勾选了。请在菜单 → 工具/选项 → 高级选项 → 通用设置 中找到 批量翻译时强制串行,确保其未勾选(取消勾选)。同时将 批量翻译视频时每批数量 设为大于 0 的数字(例如 3 或 5),并确保 GPU 同时任务数(在同一通用设置区域中)也设为大于 1(例如 3或4)。修改后保存设置。如果仍找不到某些选项,请尝试关闭软件重新打开,或确认使用的是最新版本(v4.01)。

批量翻译视频时每批数量 只看到这个 没有看到批量翻译时强制串行

您使用的版本较旧(v3.99),该版本中“批量翻译时强制串行”选项可能位于不同的路径或名称不同。请尝试以下操作:1. 确认您设置了“批量翻译视频时每批数量”为 3~5(非0)。2. 检查“GPU同时任务数”(在同一高级选项 → 通用设置中)是否也已设为 ≥2。3. 重启软件。如果仍是一个一个执行,说明软件因资源限制自动回退为串行模式。您可以更新到最新版 v4.01(通过 pyvideotrans.com/downpackage 下载完整包),新版中该选项更明确。请注意,在旧版(v3.99)中,即便没有显式的“强制串行”开关,软件也可能因单个视频任务尚未完成而不启动下一个。这是设计逻辑:默认每批次任务并行(同时处理多个视频),但如果每个视频内部任务阶段较多,且 GPU 资源有限,可能会表现为串行。解决方案:升级到最新版。

我就这就是最新版本

抱歉,我之前的描述可能存在误导。实际上,在最新版本 (v4.01) 的“高级选项 → 通用设置”中,确实有一个“批量翻译时强制串行”复选框。请再次确认是否因为窗口高度不够被遮挡:向下滚动“通用设置”区域到最底部,应该能看见。如果仍然找不到,请按以下步骤操作:1. 关闭软件,删除软件目录下 videotrans/ 文件夹内的 cfg.jsonparams.json(注意备份 API 密钥等设置),然后重启软件恢复默认配置后再检查。2. 如果删除配置文件后仍看不到,说明您使用的并非完整官方最新版(可能从非官方渠道下载),请从官网 pyvideotrans.com/downpackage 重新下载完整包并覆盖。此外,您提到的一直在“等待识别”的现象,除了强制串行外,也可能是由于 “批量翻译视频时每批数量” 设为 0 导致每个批次内的大量视频被同时发送,但软件内部受限于硬件资源而实际串行化处理。建议将该值设为 3~5(不要为 0),并确保 “GPU同时任务数” (如果是 GPU 加速)也设为 1 以上。修改后保存并重启软件再试。

我想问个问题。我这边有视频。但是我只需要把视频转出srt字幕文件。是使用转录并翻译字幕吗

您只需要把视频转出SRT字幕文件,应使用左侧面板的 批量语音转字幕 功能,而不是“翻译视频或音频”。操作路径:在软件主界面左侧功能区点击 批量语音转字幕(或类似名称的按钮)。进入后选择需要提取字幕的视频文件(可多选),选择语音识别渠道(如 faster-whisper)和对应模型,设置原始发音语言,然后点击开始执行。该功能仅进行语音转录,不会进行翻译、配音或视频合成,直接输出SRT字幕文件到指定目录。如果需要调整断句效果,可参考高级选项中的语音识别参数。

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update. Dondate: ko-fi.com/jianchang512

Related resource