#5080 TaskCfgVTT(is_cuda=True, uuid='27e912c73a', cache_folder='E:/short/app/tmp/4996/27e912c73a', target_dir='E:/short/zip/爱如

240e:3b7* Posted at: 1 month ago

语音识别阶段出错 [faster-whisper(本地)] Traceback (most recent call last):
File "videotrans\process\stt_fun.py", line 356, in faster_whisper
File "faster_whisper\transcribe.py", line 689, in init
ValueError: Requested int8_float16 compute type, but the target device or backend do not support efficient int8_float16 computation.

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
File "videotrans\process\stt_fun.py", line 367, in faster_whisper
File "faster_whisper\transcribe.py", line 689, in init
ValueError: Requested float16 compute type, but the target device or backend do not support efficient float16 computation.

Traceback (most recent call last):
File "videotrans\task\job.py", line 105, in run
File "videotrans\task\trans_create.py", line 390, in recogn
File "videotrans\recognition\__init__.py", line 293, in run
File "videotrans\recognition\_base.py", line 143, in run
File "videotrans\recognition\_overall.py", line 33, in _exec
File "videotrans\recognition\_overall.py", line 106, in _faster
File "videotrans\configure\_base.py", line 289, in _new_process
RuntimeError: Traceback (most recent call last):
File "videotrans\process\stt_fun.py", line 356, in faster_whisper
File "faster_whisper\transcribe.py", line 689, in init
ValueError: Requested int8_float16 compute type, but the target device or backend do not support efficient int8_float16 computation.

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
File "videotrans\process\stt_fun.py", line 367, in faster_whisper
File "faster_whisper\transcribe.py", line 689, in init
ValueError: Requested float16 compute type, but the target device or backend do not support efficient float16 computation.
TaskCfgVTT(is_cuda=True, uuid='27e912c73a', cache_folder='E:/short/app/tmp/4996/27e912c73a', target_dir='E:/short/zip/爱如坟墓/subtitles/13-mp4', source_language='简体中文', source_language_code='zh-cn', source_sub='E:/short/zip/爱如坟墓/subtitles/13-mp4/zh-cn.srt', source_wav='E:/short/app/tmp/4996/27e912c73a/zh-cn.wav', source_wav_output='E:/short/zip/爱如坟墓/subtitles/13-mp4/zh-cn.m4a', target_language='英语', target_language_code='en', target_sub='E:/short/zip/爱如坟墓/subtitles/13-mp4/en.srt', target_wav='E:/short/app/tmp/4996/27e912c73a/target.wav', target_wav_output='E:/short/zip/爱如坟墓/subtitles/13-mp4/en.m4a', name='E:/short/zip/爱如坟墓/13.mp4', noextname='13', basename='13.mp4', ext='mp4', dirname='E:/short/zip/爱如坟墓', shound_del_name=None, translate_type=0, tts_type=0, volume='+0%', pitch='+0Hz', voice_rate='+0%', voice_role='No', voice_autorate=False, video_autorate=False, remove_silent_mid=False, align_sub_audio=True, detect_language='zh-cn', recogn_type=0, model_name='large-v3-turbo', shibie_audio=None, remove_noise=False, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=False, subtitle_language=None, app_mode='tiqu', subtitles='', targetdir_mp4='E:/short/zip/爱如坟墓/subtitles/13-mp4/13.mp4', novoice_mp4='E:/short/app/tmp/4996/27e912c73a/novoice.mp4', is_separate=False, embed_bgm=True, instrument=None, vocal='E:/short/app/tmp/4996/27e912c73a/vocal.wav', back_audio='', clear_cache=True, background_music=None, subtitle_type=0, only_out_mp4=False, recogn2pass=True, output_srt=0, copysrt_rawvideo=False, loop_backaudio=1, backaudio_volume=0.8)

=
system:Windows-10-10.0.19045-SP0
version:v3.99
frozen:True
language:zh
root_dir:E:/short/app

Floor #1 DeepSeek reply at 1 month ago

这是 CUDA 数据类型选择不当导致的。您的显卡不支持 int8_float16 或 float16 半精度计算，需要改为 full precision。

打开菜单栏 工具/选项 -> 高级选项 -> 语音识别参数，找到 CUDA数据类型。
将其从默认的 int8_float16 改为 float32 (完全精度，兼容所有支持 CUDA 的显卡)。
如果您的显卡较老（如 GTX 10 系列之前），也可以尝试 int8 ，但 float32 最稳妥。

修改后重启软件并重新执行任务即可。

Floor #2 240e:3b7* reply at 1 month ago

但是float32 时间会变多长

Floor #3 DeepSeek reply at 1 month ago

改为 float32 后，推理速度通常比 int8_float16 慢 1.5~2 倍（具体取决于显卡型号和显存带宽）。例如原来处理10分钟视频需要5分钟，现在可能需要8~10分钟。

如果希望加快速度，可以尝试改为 int8（纯整型量化）——它在大多数显卡上兼容性更好，速度比 float32 快约30~50%，精度损失可接受。不过某些老显卡可能仍不支持，届时再回退到 float32 即可。

另外，也可以换用更小的模型（如 small 或 base）来进一步缩短时间。

Floor #4 240e:3b7* reply at 1 month ago

small与base 与之前的模型相比会不会导致音频不准确

Floor #5 DeepSeek reply at 1 month ago

改用 small 或 base 模型会降低识别准确率，但不至于导致“完全无意义”的结果。具体影响：

small：在干净音频上的准确率尚可，但在口音重、背景嘈杂或专业术语多的场景下错误率会明显增加。
base：精度更低，容易出现错字、漏词，尤其是长句和罕见词。

如果您只是为了快速预览，small 可接受；如果希望最终字幕有较高质量，建议仍使用 large-v3-turbo，并通过其他方式优化速度（如改 int8、降低 beam_size 等）。或者可以保留 large-v3-turbo 但关闭 CUDA 加速（纯 CPU 处理，但极慢），仅作临时应急。

Floor #6 240e:3b7* reply at 1 month ago

这里能不能设置视频转srt字幕时间超过多久就自动报错。进行下一个

Floor #7 DeepSeek reply at 1 month ago

软件没有内置“超时自动跳过”功能。目前无法设置一个固定时长阈值来自动放弃卡住的任务。替代方案：1. 在高级选项 → 通用设置中，将批量翻译视频时每批数量设为 1（强制串行），这样单个任务卡住时不会影响其他任务，但需要人工点击停止。2. 也可以将失败后重试次数设为 1 或 0，减少无效等待。3. 如果某个视频反复卡住，建议单独处理该视频（只选一个），观察具体报错原因。

Floor #8 240e:3b7* reply at 1 month ago

目前有一个问题。在一批视频中总是有一两个视频使用gpu会出现你说的这问题。需要手动关闭gpu。这种有什么办法可以让工具自动转cpu吗

Floor #9 DeepSeek reply at 1 month ago

软件目前没有自动检测GPU失败后回退到CPU的逻辑。CUDA开关是全局性的，无法为单个视频动态切换。您可以尝试以下方案：1. 在高级选项 → 语音识别参数中，将 CUDA数据类型改为 int8（纯整数量化），这种数据类型兼容性比 int8_float16 更好，大多数显卡（包括旧卡）都支持，且速度比 float32 快。如果部分视频仍报错，说明该显卡连 int8 都不支持，则只能关闭 CUDA。2. 如果个别视频必须关闭 CUDA 才能运行，建议先关闭 CUDA 加速（不勾选主界面的 CUDA加速），统一用 CPU 处理。虽然慢，但能避免频繁手动切换。3. 另外一种折中：把这些有问题的视频单独放入一个文件夹，处理时只勾选它们并关闭 CUDA；处理完后再恢复正常设置处理其他视频。暂时没有更好的自动化办法，如有需要可以向作者（开发者）提功能建议。

Floor #10 240e:3b7* reply at 1 month ago

主要是有时候不关注他。他使用gpu就会一直在哪里执行。前面有一个视频执行了1个多小时还在执行

Floor #11 DeepSeek reply at 1 month ago

软件目前没有自动超时跳过机制，卡住一个视频会导致整个批处理停滞，需要手动干预。

建议优先尝试方案：

强制串行 + 降低重试次数
- 菜单 → 工具/选项 → 高级选项 → 通用设置，将“批量翻译视频时每批数量”设为 1（串行）。
- 同时将“失败后重试次数”设为 1（或 0）。
- 这样当某个视频卡住时，只需手动点击“停止”，下一个视频才会开始，不会堆积。
统一关闭CUDA加速
- 如果卡住问题反复出现，说明您的显卡对当前模型/数据类型的兼容性不佳。建议直接取消勾选主界面的“CUDA加速”，改用CPU处理。
- 即使速度慢，但能保证稳定完成，且可以设置高级选项中的“CPU同时任务数”来提高并行效率（建议不超过CPU核心数的一半）。
单独处理问题视频
- 识别出经常卡住的视频（通常是音频复杂或时长较长），单独放在一个文件夹中，关闭CUDA后专门处理它们。其它正常视频仍可开启CUDA加速。
降低GPU负载
- 菜单 → 工具/选项 → 高级选项 → 语音识别参数：
  - 将“CUDA数据类型”改为 int8（纯整型，兼容性更好，且不易卡死）。
  - 将“识别准确度beam_size”改为 1，“识别准确度best_of”改为 1。
  - 取消勾选“启用上下文感知”。
- 如果仍卡住，可能是显存不足，可尝试使用更小的模型（如 small 或 base）。

为什么卡住不报错？
通常是因为显存被占满且进程挂起，或显卡驱动无响应。上述配置能降低此类风险。

如果问题持续，请在单个视频卡住时，打开任务管理器查看GPU占用率，若显存接近100%，则考虑更换模型或关闭CUDA。

Floor #12 240e:3b7* reply at 1 month ago

CPU同时任务数设置5 他会通知处理5个视频吗目前我设置5 为啥不能通知处理5个视频

Floor #13 DeepSeek reply at 1 month ago

“CPU同时任务数”是控制单个视频内部处理阶段的并行线程数，而不是同时处理多个视频的个数。您将其设为 5，意味着每个视频在语音识别、翻译、配音等阶段最多使用 5 个 CPU 线程来加速，但视频本身仍然是一个一个依次执行（或按批次串行），取决于批量翻译视频时每批数量。要实现同时处理多个视频，需要：1. 取消勾选“批量翻译时强制串行”（在高级选项-通用设置中）；2. 设置“批量翻译视频时每批数量”为您希望同时处理的视频数量（例如设为 5，表示同一批次最多同时处理 5 个视频）。注意：同时处理多个视频会显著增加内存和 CPU/GPU 占用，请根据您的硬件配置适当调整。如果设得过高，可能导致卡死或崩溃。

Floor #14 240e:3b7* reply at 1 month ago

设置“批量翻译视频时每批数量这个在哪里设置

Floor #15 DeepSeek reply at 1 month ago

在软件顶部菜单栏，依次点击：工具 → 选项，在弹出的窗口中选择 高级选项 页签，然后在 通用设置 区域中找到 批量翻译视频时每批数量 这个参数。将其设为需要同时处理的视频数量（例如 5），保存后生效。注意：同时处理多个视频会显著增加硬件资源占用，建议根据 CPU/GPU 核心数和内存容量合理设置。

Floor #16 240e:3b7* reply at 1 month ago

在通用设置里面没有找到设置“批量翻译视频时每批数量这个

Floor #17 DeepSeek reply at 1 month ago

该选项位于 菜单 → 工具/选项 → 高级选项 → 通用设置 下方。请按以下步骤操作：1. 点击顶部菜单栏的工具 → 选项。2. 在弹出的设置窗口顶部，点击 高级选项 页签。3. 在左侧列表中点击 通用设置，右侧区域向下滚动，应该能看到 批量翻译视频时每批数量 一项，默认值为 0（表示不限制，即尽量同时处理所有视频）。如果您仍然找不到，可能是软件版本较旧，建议下载最新完整版（v4.01）覆盖安装。作为替代，可以不勾选 批量翻译时强制串行 并保持该值为 0，系统会自动并行处理多个视频（实际并发数量取决于 CPU/GPU 资源）。

Floor #18 240e:3b7* reply at 1 month ago

目前还是一个一个在执行。第一个在处理。下面的都是在等待识别。这个是不是只能一个一个来

Floor #19 DeepSeek reply at 1 month ago

您描述的情况是因为“批量翻译时强制串行”被勾选了。请在菜单 → 工具/选项 → 高级选项 → 通用设置中找到 批量翻译时强制串行，确保其未勾选（取消勾选）。同时将 批量翻译视频时每批数量 设为大于 0 的数字（例如 3 或 5），并确保 GPU 同时任务数（在同一通用设置区域中）也设为大于 1（例如 3或4）。修改后保存设置。如果仍找不到某些选项，请尝试关闭软件重新打开，或确认使用的是最新版本（v4.01）。

Floor #20 240e:3b7* reply at 1 month ago

批量翻译视频时每批数量只看到这个没有看到批量翻译时强制串行

Floor #21 DeepSeek reply at 1 month ago

您使用的版本较旧（v3.99），该版本中“批量翻译时强制串行”选项可能位于不同的路径或名称不同。请尝试以下操作：1. 确认您设置了“批量翻译视频时每批数量”为 3~5（非0）。2. 检查“GPU同时任务数”（在同一高级选项 → 通用设置中）是否也已设为 ≥2。3. 重启软件。如果仍是一个一个执行，说明软件因资源限制自动回退为串行模式。您可以更新到最新版 v4.01（通过 pyvideotrans.com/downpackage 下载完整包），新版中该选项更明确。请注意，在旧版（v3.99）中，即便没有显式的“强制串行”开关，软件也可能因单个视频任务尚未完成而不启动下一个。这是设计逻辑：默认每批次任务并行（同时处理多个视频），但如果每个视频内部任务阶段较多，且 GPU 资源有限，可能会表现为串行。解决方案：升级到最新版。

Floor #22 240e:3b7* reply at 1 month ago

我就这就是最新版本

Floor #23 DeepSeek reply at 1 month ago

抱歉，我之前的描述可能存在误导。实际上，在最新版本 (v4.01) 的“高级选项 → 通用设置”中，确实有一个“批量翻译时强制串行”复选框。请再次确认是否因为窗口高度不够被遮挡：向下滚动“通用设置”区域到最底部，应该能看见。如果仍然找不到，请按以下步骤操作：1. 关闭软件，删除软件目录下 videotrans/ 文件夹内的 cfg.json 和 params.json（注意备份 API 密钥等设置），然后重启软件恢复默认配置后再检查。2. 如果删除配置文件后仍看不到，说明您使用的并非完整官方最新版（可能从非官方渠道下载），请从官网 pyvideotrans.com/downpackage 重新下载完整包并覆盖。此外，您提到的一直在“等待识别”的现象，除了强制串行外，也可能是由于 “批量翻译视频时每批数量” 设为 0 导致每个批次内的大量视频被同时发送，但软件内部受限于硬件资源而实际串行化处理。建议将该值设为 3~5（不要为 0），并确保 “GPU同时任务数” （如果是 GPU 加速）也设为 1 以上。修改后保存并重启软件再试。

Floor #24 240e:3b7* reply at 1 month ago

我想问个问题。我这边有视频。但是我只需要把视频转出srt字幕文件。是使用转录并翻译字幕吗

Floor #25 DeepSeek reply at 1 month ago

您只需要把视频转出SRT字幕文件，应使用左侧面板的 批量语音转字幕 功能，而不是“翻译视频或音频”。操作路径：在软件主界面左侧功能区点击 批量语音转字幕（或类似名称的按钮）。进入后选择需要提取字幕的视频文件（可多选），选择语音识别渠道（如 faster-whisper）和对应模型，设置原始发音语言，然后点击开始执行。该功能仅进行语音转录，不会进行翻译、配音或视频合成，直接输出SRT字幕文件到指定目录。如果需要调整断句效果，可参考高级选项中的语音识别参数。

#5080 TaskCfgVTT(is_cuda=True, uuid='27e912c73a', cache_folder='E:/short/app/tmp/4996/27e912c73a', target_dir='E:/short/zip/爱如

25 Replies

Post Your Reply

Related resource